媒体关注

《中国科学数据》:从根源唤醒沉睡的数据

日期:2021-01-27

|  来源:中国科学报【字号:

  近年来,因“原始数据丢失,工作无法重复”造成的撤稿事件屡见不鲜。例如,2020年1月,2018年诺贝尔化学奖得主Frances H. Arnold撤掉了2019年5月发表于《科学》的一篇论文,原因是缺失了关键的原始数据,致使研究成果无法重复。

  “只发表论文不公开研究数据,可能会导致科学研究成果无法复现,不仅降低论文可信度,还可能衍生学术不端等行为。但如何让科学家自愿分享科研数据是长期以来难解的问题。”《中国科学数据(中英文网络版)》(以下简称《中国科学数据》)常务副主编、中国科学院计算机网络信息中心(以下简称网络中心)研究员黎建辉在接受《中国科学报》采访时坦言。

  “科学家科研贡献和学术声望评价机制一成不变,是阻碍科学数据开放共享实践的一个根本问题。”《中国科学数据》主编、中国科学院院士郭华东认为,“数据出版可使数据达到可引用和永久可访问的状态,促使数据尽快纳入科研评价体系,是科研共同体的试金石、防腐剂。”

  走出“深闺” 

  随着信息技术发展,数据存储和传播所面临的容量、时间和空间藩篱已被打破,科学数据共享不仅是学术界枯苗望雨之盼,更是影响国家安全和科技进步的重要战略。

  作为《中国科学数据》的主办单位,多年来,网络中心积累了丰富的数据资源,开展了一系列数据共享探索,但效果仍不理想。“一方面科学家不愿意共享数据,另一方面数据共享没有正式的渠道和规范的标准,而造成科学家将数据‘攥’在手中的根本就是数据权属和激励机制问题。”黎建辉表示。

  2012年,国际数据期刊开始呈发展态势,国内科学数据开放共享领域的研究者们也逐渐意识到,数据出版是我国数据共享发展的必由之路。

  然而,申请刊号成为当时最难的事。“我国对刊号的审批非常严格。数据期刊作为新事物,申请刊号更是难上加难,很多人甚至不明白数据出版究竟是什么。”黎建辉说。

  2015年,国家新闻出版广电总局开展网络连续型出版物规范管理试点工作。独具网络出版特性的《中国科学数据》抓住这一机遇,正式获批刊号,成为我国首个专门面向多学科领域科学数据出版的在线学术期刊。

  存储对数据发表工作至关重要。为此,网络中心还自主研发了一套支持数据出版的工作平台,由中国科学数据在线工作平台和科学数据存储库系统ScienceDB(科学数据银行,以下简称ScienceDB)共同构成。

  海军大连舰艇学院教员郑崇伟长期致力于海洋研究。他发现,当海洋研究人员需要数据时,通常先想到的是NOAA、NASA等机构,我国海洋数据在国际上的认可度还有待提高。“我们希望将团队制作的海洋数据向国际同行分享,展示我国科研人员在海洋大数据研究方面的积极贡献,提高国际话语权。”

  然而,分享之路困难重重。“在数据出版之前,国外同行通常会通过邮件等方式向我们索要数据,他们提供的数据上传网站极难登录,而且数据没有编号,我们也无法告知其数据如何引用。”郑崇伟坦言,“《中国科学数据》及其存储平台解决了我们的烦恼,我们的数据集有了‘身份证’,不但引用规范起来,引用率也提高了很多。”

  2015年,中国科学院空天信息创新研究院副研究员邱玉宝结束在地球观测组织的任职,开始对此前的课题成果数据进行梳理。“一方面,希望数据有存储之地,节省查找时间,也便于分享;另一方面,我们想紧跟国际数据公开共享的发展趋势。”

  在了解到网络中心开展数据出版并筹建了ScienceDB后,邱玉宝便借助这个平台公开数据。让他没想到的是,数据公开后得到多个平台转载,《青藏高原MODIS逐日无云积雪面积数据集》(以下简称积雪数据集)是目前通过ScienceDB平台下载量最多的数据集,还被科技部的多个国家级数据中心转储。

  “问渠哪得清如许,为有源头活水来。为唤醒沉睡的数据,《中国科学数据》希望为科研共同体输送源头活水,承载数据,问路未来。”郭华东表示。

  不只是“期刊” 

  期刊名字加不加“中国”?办英文的还是中文的?做专业领域还是多学科领域?……

  在刊号管控严格的背景下,如果期刊名称加上“中国”二字,则意味着刊号批复更加困难。“必须加‘中国’,这是我们的责任和使命。我们要将中国的优质数据推出去,但并不意味着只限于中国的数据。”《中国科学数据》编辑部主任孔丽华掷地有声地说。

  “中国需要本土的期刊,所以我们摒弃了纯英文期刊的想法,创办了中英文双语期刊。”黎建辉说,“不仅如此,我们还希望推动多学科的数据共享,不局限于某个领域。”

  为了更好地展现“中国”力量,网络中心自主研发了ScienceDB和中国科学数据在线工作平台。“国外也有现成的出版平台,但中国应该有自己的核心技术,而且国外平台未必就完全适合国内出版特点。”黎建辉表示,“我们希望建立一个能为多种期刊服务、适用于多种不同审稿流程的平台,而实现这种灵活性具有很大难度。”

  经过团队两年攻坚,数据出版平台终于搭建成功,解决了众多数据集的共享之困。“磨刀不误砍柴工,好的系统可以帮助我们做很多事情,后期可以省很多力。”黎建辉说。

  从2015年完成、公开第一套数据集后,邱玉宝就开始陆续通过此平台共享科学数据,其中积雪数据集至今已被20多家国内外单位引用,不仅在气候变化等领域,在工程领域也得到很好的应用,还有学者基于这套数据完成了博士论文的核心章节。“作为一名科研人员和数据生产者,这是我没有预想到的,也促使我后续发表更多数据。”

  “数据不仅要公开,还要高质量地公开,只有高质量的数据才更具传播性和应用性。”在荣获“ScienceDB科学数据奖”个人成就奖后,邱玉宝感慨道,“数据共享让数据不再停留在硬盘里,而是实实在在被他人在不同领域真正应用,这是数据生命周期的完整价值链。”

  在郑崇伟看来,从体量大、信息密度低的原始数据中提取有用信息,并形成数据集,是高效开展海洋建设、实现我国海洋数据弯道超车的关键。“《中国科学数据》一站式解决了论文发表和数据存储的问题,我们研制的首套《‘海上丝绸之路’ 海洋环境与新能源数据集》发表后,得到国际同行的广泛应用和高度评价。”

  在黎建辉看来,《中国科学数据》不只是一本期刊。“它是一个按照期刊模式推动数据共享的平台,期刊只是演进的第一步,未来将借助大数据等特点,将数据跟科研活动融合得更加紧密。”

  “两条腿”走路 

  “论文出版有悠久的历史,形成了成熟的出版体系,而数据出版不同,作为一个新事物,必须建立一套新的数据出版流程。”黎建辉回忆道。

  为更好地盘活数据、推动数据共享、提高数据出版速度,《中国科学数据》制定了两个审核阶段,第一阶段是预出版,第二阶段是同行评议。

  “预出版阶段属于技术审核,提交的数据论文和数据集首先由编辑部的数据审核员和论文审核员分别审核,通过初审的会直接在网上公布,通常只需3天左右。”孔丽华说,“预出版不仅可以让数据集得以快速公布和引用,学者还能对其开放讨论,并提出问题和建议。”

  “同行评议阶段属于专家审核,通过初审的数据论文和数据集会送至既有学科背景又了解数据的审稿专家,一般45天左右就能完成审稿。”孔丽华进一步解释。

  “数据期刊的发展要‘两条腿’走路。从数据共享的初心角度,不能仅把它看成刊物,要做更多盘活数据的事;从办刊角度,又要重视刊物载体,努力追求优质的数据和更好的传播力。”她说。

  因此,编辑部会围绕国家重大战略和国际前沿等主题主动组稿和约稿。“对于自由来稿,我们不会只看被引率而轻易拒稿,数据好不好用最终还要用户说了算。”孔丽华说。

  实际上,创刊初期,为了获得好稿源,黎建辉时常带着大家四处“化缘”。“我国有丰富的数据资源,与学术论文紧密关联的数据集都隐藏在冰山之下,但当时大家对数据出版没有意识,理念疏通后也就水到渠成了。”

  截至2020年12月底,《中国科学数据》已经正式出版了专题特色数据集17期,期刊出版与论文发布合计约335篇,数据总量达到762.86GB。

  “像战友一样” 

  随着期刊的发展和办刊理念的进步,投稿体验成为期刊越来越关注的方面,这也成为期刊扩大稿源、维系作者的“软实力”。

  数据出版流程不像论文出版那样被作者所熟知。郑崇伟回忆说:“第一次向《中国科学数据》投稿时,数据描述、标准格式上传等都是第一次接触,编辑非常细心地提供数据论文模板,并分享经验、主动提供帮助。”

  “整个投稿过程‘如沐春风’。”郑崇伟评价道,“这支队伍严谨负责,他们就像背靠背作战的‘战友’一样,不但不会加压,还时常询问我们的进度,主动为我们解决各种问题。对于已出版的数据集,他们积极帮我们宣传,本身很苦的活儿一下有了‘温度’。”

  在作者“如沐春风”的体验之后,是编辑团队不知疲倦的付出。“从跟踪研究项目、策划主题、跑专题、联系专家、确认组稿,到收稿审核、同行评议、主编终审,再到编辑排版、最终出版,乃至出刊后宣传推广等,实际上,期刊编辑的工作非常繁琐。”孔丽华说。

  但让她欣慰的是,这支编辑队伍虽小但“精”,“所有人都任劳任怨、用心做事,希望能为我国数据共享和数据出版贡献自己的力量”。

  对于期刊未来发展,黎建辉表示,“一是要继续扩大稿源,丰富稿源的学科类型;二是站位要更加高远,围绕国家重大战略和国际前沿开展数据共享推动工作;三是推动数据引用的分析和统计工作,这是促进科学家共享数据的有效激励机制。”(见习记者 田瑞颖

附件: