工作量大、没有回报……数据共享,要迈几道坎儿?
| 来源:中国科学报【字号:大 中 小】
张国庆看着电脑屏幕,手上移动着鼠标,光标在Landsat(陆地卫星)影像上以毫米计的距离移动,定位于中国范围内每一个湖泊。之后,他将有关遥感影像和数据下载。
在数以千万次地拖动点击鼠标、初步完成数据集后,张国庆再次紧盯每一个湖泊,比对、检查、修正。遇到看着很像湖泊的水体单元,张国庆要耗费更多的精力和时间,确保湖泊边界的准确性。
这样的动作,张国庆和他的学生持续了3年多,他的目标是了解过去50年全国大于1平方公里的湖泊数量与面积变化及其驱动因素。最终在2019年,张国庆利用超过3831景遥感卫星影像获得长时间序列全国湖泊编目数据集,较现有数据更新、更完整。
在数据集完成的第一时间,张国庆将其上传到了国家青藏高原科学数据中心(以下简称数据中心),并开放给所有需要者免费获取使用。很快,这一数据集被国家水利部门、湖泊水文研究学者等用于完善我国水资源管理战略、研究生态资源与环境变化趋势、开展乡村调查等。
“做出来高质量的数据,本应该开放共享。”张国庆告诉《中国科学报》。他从事的是冰冻圈和环境遥感研究,大部分科研工作与数据有关。他还共享了青藏高原湖泊水位、水量变化等数据集。
数据中心于2019年成立3年来,像张国庆这样愿意开放共享的科研人员越来越多。在数据中心主任、青藏高原所研究员李新看来,在中国实现科学数据的公开共享不仅需要自上而下地授权,还需要激励机制,以增强研究人员对数据共享实践的信心和意愿。
数据开放难在哪儿?
2020年,一项对我国超过2000名科研人员的调查显示,我国研究人员虽有分享研究数据的意愿,但也担心数据误用及版权、许可受到侵犯。在我国,与同事和合作者私下共享数据的情况更为普遍,而不是更广泛的公开共享。
李新发现,当数据与论文关联起来时,科研人员共享数据的意愿相对高一些。
“科研人员发论文,谁也没有犹豫,都很乐意公开发表,科学数据也应该是一个道理。”李新笑称,“与十几年前相比,总体上我国数据开放共享的状态是乐观积极的。不过,在我国研究人员中更为广泛地树立数据共享的理念,仍需做大量工作。”
比如,科学数据哪些该保密、哪些不该保密,边界仍不清晰;科研人员采集的数据还需要整理、描述、质量控制和中英文编辑等,这些“额外”的劳动成果难以被认定;科研人员辛苦付出,其知识产权有时却没有被保护好。
此外,如今已是“数据洪流”时代,然而由于一些技术问题,诸多质量高、描述好的数据在互联网搜索引擎上难以检索到,或是可以被检索到却难以获取和应用;数据质量和规范化水平不高。有调查显示,只有不到10%的中国地球科学元数据有英文版本,这阻碍了广泛的国际交流。
促进数据开放共享,从政策、管理到技术等方面都存在一定壁垒,需要更具体的行动,尤其是科研人员的主观意愿和动力。
不少人在网络平台上“吐槽”不愿共享的原因——“工作量大,科技含量低”“又累又苦,有时还有危险”“没有回报”……
的确,数据不论收集难度还是时间跨度都非一朝一夕所能完成。
清华大学教授阳坤团队用了10余年时间开发了一套中国区域地面气象要素驱动数据集(1979—2018),为中国区陆面过程模拟提供驱动数据。阳坤的学生何杰博士是这套数据的主要开发人员之一,从2008年还是研究生时便开始采集整理数据。“尽管不需要有技术突破,但很多时候依赖‘上游’数据,需要用各种各样的办法排除可能存在疑问的数据,做出高质量的数据产品。这个过程是繁琐、耗时的。”
谈及愿意共享的原因,何杰告诉《中国科学报》,气象要素驱动数据集在地学研究中不可或缺。以气象为例,只有给模型输入高质量的数据,才能获得科学的气候环境模拟结果。“做数据集的初衷,就是因为之前使用的数据模拟效果‘不理想’,想为我国地学学者提供一套可靠数据。有人用,才能够体现我们研究的价值。”
10余年来,何杰与导师开发的这套数据集的精度高于国际上已有再分析数据的精度,成为国内研究广泛使用的气象数据集之一。如今,何杰是青藏高原所的工程师,“没有更多论文考核的压力,可以更充分地完善数据集”。
激励机制是关键
自身研究驱动,是数据采集者开放、共享的初衷。但要提高积极性,在李新看来,“数据贡献者的认同感和工作的价值感需要被体现”。
李新先后承担了国家自然科学基金委“中国西部环境与生态科学研究”和“黑河流域生态—水文过程集成研究”两个重大研究计划的项目。这两项计划均要求,受资助课题得到的科学数据必须公开共享。在项目的年度评估、中期考核及最终评估环节,数据提交共享和数据质量都是被评定的内容。
这两项先导性计划的成功让李新感触颇深,“这种自上到下对公开数据共享予以支持的政策、自下到上对数据贡献者予以激励的机制,是实现中国更为广泛数据共享的关键”。
前不久,在青藏高原所组织的国际评估中,不少国际专家对张国庆的科研能力以及他的数据工作给予了认可和肯定。
数据中心也努力让数据贡献者有“价值感”,为每个自有产权的数据赋予唯一的数字对象标识符,体现数据的跟踪价值、引用价值、集成价值和互联价值。
但这还不够。李新建议,研究成果或项目资助中,除了考查其高质量论文的发表情况,还可增加其所贡献科学数据质量等相关的条款。此外,数据出版也是促进科学数据开放共享的重要手段,主要参考学术论文的出版方式,规范地描述科学数据本身,并接受严格的同行评审,遵从学术出版规范。比如,国内一流综合期刊可率先尝试要求在论文投稿时,同步提交论文相关数据,并且优先选择国内数据中心作为数据仓储。
“数据计量和规范化数据引用方面,还缺乏统一的规范,不利于对科学数据贡献者的激励和科学数据的开放。”李新表示,加强数据引用,科学论文应按照标准的数据引用格式,引用支持论文成果的关键数据集;同时,加强数据引用计量,体现数据作者的知识产权和贡献,激励数据共享。
“只有对数据贡献者进行适当的评估、肯定和鼓励,数据共享才能成为一种自愿的机制。当大家都愿意共享时,一种良好的氛围也就形成了。”李新说。
开放的“FAIR”原则
在数据开放中,不少科研人员有“开放数据可能会给自己的科研工作带来风险”的顾虑,一定程度上影响了他们自下而上开放科学数据的意愿。
一方面希望应该开放的数据“不设任何边界”开放,另一方面希望需要保密的数据保密,这对矛盾体依然是摆在数据开放共享面前的问题。
李新说,科学数据已经从“全面开放”原则过渡到目前普遍遵循的“FAIR”原则,即可发现性、可获取、可互操作、可重用。我国2018年颁布的《科学数据管理办法》中按照“开放为常态、不开放为例外的原则”的要求,为解决这个矛盾提供了“指引”。
不过,政策上还需进一步细化。李新表示,为最大程度地实践数据共享,对敏感数据有清晰的定义及制定具体的共享限制政策显得尤为重要,比如那些涉及国家安全、商业机密和个人隐私的数据当然可以保密,而其他数据应该充分开放共享。开放科学的知识产权协议,如知识共享协议,可作为一种通用协议被引入科学数据共享。
数据中心采取行动试图打消科研人员的顾虑,保护数据贡献者的知识产权。保留数据贡献者的版权,授权他人在协议限定范围内的转载、使用和二次演绎等;兼顾数据作者对特殊数据保护的诉求,比如可以设置不超过两年的数据保护期,或根据数据作者对数据共享需要附加额外条件的要求,设置数据申请审批流程等。
“数据中心会不定期地进行安全自查,发现有可能涉密的数据就进行下线处理。”李新说。
数据中心不断开发新技术践行“FAIR”原则,采用国际标准提供数据引用方式和数据关联文献引用方式,支持数据出版,开发在线大数据分析、模型应用等功能。
在数据集描述页面添加相关元数据信息,使得数据中心的数据能够在谷歌数据搜索引擎中被查询到;尽量采用地学数据领域广泛认可的标准和规范,减少互操作性障碍;免登录下载,降低数据下载门槛,开发中英文双语数据管理与共享平台,由专业编辑和公司“双重把关”英文数据质量……
这些都促进了青藏高原及其周边相关科学数据的开放共享。
今年1月底,李新在总结会上公布,目前已收集并发布青藏高原及周边地区的科学数据集4600多个,累计页面访问量超过1.5亿次,月均下载量达50TB,为青藏高原区域科技创新发展和地球系统科学研究提供了重要的数据支持。数据中心也成为国内首个通过《自然》数据期刊《科学数据》认证的数据仓储中心,大大提高了数据中心的影响力和权威性。
李新对于数据中心有着更“开放”的愿景:通过整合来自大数据和机器学习的技术,将大数据转化为信息和知识,更有效地为数据用户服务,研发更多青藏高原及周边的高质量再分析数据产品;建立一个平台,使用者无需下载便可在线使用数据集,就像“谷歌地球引擎”一样,使得数据检索更容易、数据访问更广泛。
“实现数据共享的范式转变,仍需要政府、研究人员和数据中心的积极努力。数据开放和数据贡献者越受到激励,就越有利于科学和社会的发展。”李新对此充满期待。
(《中国科学报》2022-03-15 第1版 要闻 原标题为《科学数据要像学术论文一样积极“共享”》)