学术视点
| 来源:【字号:大 中 小】
作者:Tay, D.W.P., Yeo, N.Z.X., Adaikkappan, K. et al.
来源:Scientific Data. 2023.
摘要:Natural products are a rich resource of bioactive compounds for valuable applications across multiple fields such as food, agriculture, and medicine. For natural product discovery, high throughput in silico screening offers a cost-effective alternative to traditional resource-heavy assay-guided exploration of structurally novel chemical space. In this data descriptor, we report a characterized database of 67,064,204 natural product-like molecules generated using a recurrent neural network trained on known natural products, demonstrating a significant 165-fold expansion in library size over the approximately 400,000 known natural products. This study highlights the potential of using deep generative models to explore novel natural product chemical space for high throughput in silico discovery.
题目:Eighteen years of upland grassland carbon flux data: reference datasets, processing, and gap-filling procedure
作者:Winck, B.R., Bloor, J.M.G. & Klumpp, K
来源:Scientific Data. 2023.
摘要:Plant-atmosphere exchange fluxes of CO2 measured with the Eddy covariance method are used extensively for the assessment of ecosystem carbon budgets worldwide. The present paper describes eddy flux measurements for a managed upland grassland in Central France studied over two decades (2003–2021). We present the site meteorological data for this measurement period, and we describe the pre-processing and post-processing approaches used to overcome issues of data gaps, commonly associated with long-term EC datasets. Recent progress in eddy flux technology and machine learning now paves the way to produce robust long-term datasets, based on normalised data processing techniques, but such reference datasets remain rare for grasslands. Here, we combined two gap-filling techniques, Marginal Distribution Sampling (short gaps) and Random Forest (long gaps), to complete two reference flux datasets at the half-hour and daily-scales respectively. The resulting datasets are valuable for assessing the response of grassland ecosystems to (past) climate change, but also for model evaluation and validation with respect to future global change research with the carbon-cycle community.
题目:数据驱动的材料智能设计平台研究与应用
作者:王宗国,万萌,陈子逸,李凯,王晓光,刘淼,孟胜,王彦棡
来源:数据与计算发展前沿, 2023, 5(2): 86-96.
摘要:新科研范式下,基于大数据的人工智能技术为加速新材料设计与发现提供了新的方法与视角,为材料领域研究人员提供了一个可用的材料智能设计平台,对于新材料的发现与性能优化具有重要意义。本文提出一种基于数据驱动的材料智能设计平台的整体架构,阐述应用平台开展新材料设计和优化的关键技术及相关工具,并给出该平台在材料领域的应用案例。材料智能设计平台及其应用加快了新材料设计与性能优化的进程,同时也为科研人员提供了一种交互式、插件式的开发环境。材料领域数据的多源异构、样本小、含噪声且数据关系复杂等特点给模型训练效果产生一定的影响,未来希望在数据规范和小样本训练方面进行更多探索。本文所提出的材料设计平台为材料领域实现科研范式变革提供了理论依据和示范作用。
题目:跨空间域数据管理分布式共识算法:现状,挑战和展望
作者:李伟明、李彤、张大方、戴隆超、柴云鹏
来源:大数据, doi: 10.11959/j.issn.2096-0271.2023040.
摘要:随着数字经济的飞速发展,以及“全国一体化数据中心”和“东数西算”等基础设施的不断完善,数据要素流通的大趋势使得数据服务逐步由面向单一空间域的数据管理转变为面向跨空间域的数据管理。跨域数据管理需要通过分布式共识算法使得数据一致。然而,已有的分布式共识算法仅考虑单数据中心的情况,没有考虑跨数据中心之间的网络通信的不确定性,从而在跨空间域场景下面临日志同步时延大、系统吞吐量低下等问题。本文系统地梳理了跨空间域下的分布式共识算法的现状以及面临的新挑战,并针对解决这些挑战的技术路线进行了展望。
题目:“大数据&人工智能”驱动的空间天气科研范式变革初步探索
作者:胡晓彦、徐寄遥、邹自明
来源:数据与计算发展前沿, 2023, 5(2): 24-36.
摘要:总结大数据与人工智能驱动的空间天气科研范式变革现状,并探讨可能的未来发展趋势。本文分析了空间天气大数据场景下传统科研模式面临的挑战和人工智能技术带来的机遇,广泛调研了国内外相关战略规划和研究进展,并对典型应用案例进行深入分析,归纳总结了领域科研范式变革现状与特点。人工智能技术在空间天气领域的多种科学任务类型中均得到了有效尝试,提升了科研效率,解决了大数据场景困难,空间天气领域已呈现科研范式变革的萌芽。本文侧重于对重要文献和案例的归纳和未来发展整体趋势的分析,未来希望通过文献计量学等方法对现状进行进一步研究,并针对未来发展中需解决的关键问题进行深入探讨。空间天气领域科研范式正在发生变革,大数据、人工智能与领域知识的融合有望形成新范式。
题目:数据空间基础设施的技术挑战及数联网解决方案
作者:罗超然、马郓、景翔、黄罡
来源:大数据, 2023, 9(2): 110-121.
摘要:数据空间是网络空间从“以计算为中心”向“以数据为中心”转型的一种新形态,蕴含着变革性重大科技问题和换道超车创新机遇。类似互联网是网络空间的主要基础设施,数据空间也需要“以数据为中心”的新型基础设施,其核心功能是实现数据的一阶实体化。从数据空间的视角出发,分析总结互联网、万维网和数字对象架构等主流技术体系对数据一阶实体化的支持和不足,给出数据空间基础设施的基本内涵与技术挑战。提出基于数据语用原理的数据一阶实体化方法,通过融合数字对象架构、分布式账本和智能合约等技术形成数联网解决方案,支撑互联网规模的数据空间基础设施构造和运行。
题目:欧盟数据与算法安全治理:特征与启示
作者:崔文波、张涛、马海群、蔡庆平
来源:信息资源管理学报, 2023, 13(2): 30-41.
摘要:本文以数据与算法安全治理为对象,调研欧盟实现数字主权与技术主权治理目标的具体形式发现。欧盟数据与算法安全治理具有“重视个人隐私数据安全、建立数据跨境流动安全规则、形成算法嵌套数据的协同安全治理模式、以人为中心的人工智能伦理与治理”的典型特征。从欧盟数据与算法安全治理特征中得到启示,并针对我国数据与算法安全治理现状提出三点建议:完善数据与算法安全协同治理机制、建立主体间数据流动制度及中介机构评估机制、建立人工智能伦理监管与创新发展的平衡机制。