学术视点
| 来源:【字号:大 中 小】
题目:A large expert-curated cryo-EM image dataset for machine learning protein particle picking
作者:Dhakal, A., Gyawali, R., Wang, L. et al.
来源:Scientific Data. 2023.
摘要:Cryo-electron microscopy (cryo-EM) is a powerful technique for determining the structures of biological macromolecular complexes. Picking single-protein particles from cryo-EM micrographs is a crucial step in reconstructing protein structures. However, the widely used template-based particle picking process is labor-intensive and time-consuming. Though machine learning and artificial intelligence (AI) based particle picking can potentially automate the process, its development is hindered by lack of large, high-quality labelled training data. To address this bottleneck, we present CryoPPP, a large, diverse, expert-curated cryo-EM image dataset for protein particle picking and analysis. It consists of labelled cryo-EM micrographs (images) of 34 representative protein datasets selected from the Electron Microscopy Public Image Archive (EMPIAR). The dataset is 2.6 terabytes and includes 9,893 high-resolution micrographs with labelled protein particle coordinates. The labelling process was rigorously validated through 2D particle class validation and 3D density map validation with the gold standard. The dataset is expected to greatly facilitate the development of both AI and classical methods for automated cryo-EM protein particle picking.
题目:Global Virtual Data Space for Unified Data Access Across Supercomputing Centers
作者:B. Wei, L. Xiao, H. Zhou, G. Qin, Y. Song and C. Zhang
来源:IEEE Transactions on Cloud Computing, vol. 11, no. 2, pp. 1822-1839.
摘要:In the wide-area high-performance computing environment, heterogeneous storage resources are geographically distributed in different supercomputing centers, which leads to the barriers between applications and data. This article proposes a global virtual data space, named GVDS, to meet the needs of unified data access across supercomputing centers. GVDS integrates the parallel/distributed file systems of supercomputing centers to present a virtual space with tremendous storage capability for users. GVDS organizes users into groups for easy management, which allows users to share, collaborate, and perform computations on the stored data. For failure tolerance, global metadata is replicated and distributed on multiple supercomputing centers, redundant I/O service components are deployed in each supercomputing center. GVDS uses adaptive prefetching, caching, and request merging to improve access performance. Experimental results running on real-world supercomputing centers show that, GVDS can deliver excellent I/O performance running micro-benchmark, real-world traces and applications.
题目:数据密集型超算现状、挑战以及未来发展趋势
作者:魏嘉,陈默,王龙翔,任沛,雷雨佳,屈俞岐,蒋骐羽,董小社,伍卫国,张凯丽,张兴军
来源:数据与计算发展前沿, 2023, 5(3): 66-91.
摘要:本文首先梳理了数据密集型超算中的关键概念,分析阐述现有平台对数据密集型应用的支持程度。说明了科学界和工业界对数据密集型应用的实际需求情况。并对数据密集型超算的未来发展趋势和面临的潜在挑战进行展望,建立了超算系统评测模型。通过本文快速了解到超算技术的关键概念及发展状况,精准捕捉当下与未来数据密集型超算研究热点和亟待解决的关键问题。数据密集型超算存储系统面临的复杂数据类型优化、混合负载优化、多协议支持与互通等将会成为未来一段时间内研究和发展的热点问题。
题目:专家笔谈:国家数据局组建对大数据未来的影响
作者:丁波涛,陈才,高丰,卢勇,葛亮,盛雪锋,陈定权
来源:图书情报知识, 2023, 40(3): 13-24.
摘要:2023年3月,中央印发《党和国家机构改革方案》,组建国家数据局。作为全球范围内首个专门管理数据的国家级机构,国家数据局的成立不仅意味着国家层面上数据管理责任部门的调整,还将对数据资源的采集、共享、流通、开发、应用、治理等产生深远影响。为此本刊邀请了来自高校、科研院所、企业和专业机构的专家学者,从不同角度就这一话题进行探讨。七位专家分别解读了国家数据局成立的背景与意义、国家数据管理体制的演进脉络以及国家数据局成立对公共数据管理、数据要素市场发展、数据跨境流动、智慧城市建设和信息资源管理学科发展的影响。从中可以看出,组建国家数据局是我国推动数据治理体系和治理能力现代化的一项重要举措,将有力促进大数据和数字经济领域创新发展和安全治理的统筹、中央部门和地方政府的协调、国家资源和社会力量的整合、国内发展和对外开放的互促。我们希望通过此次专家笔谈,引导社会各界就我国的数据发展与治理体制机制问题展开深入讨论,为加快我国数字经济发展和数字中国建设提供智力支持。
题目:基于WordBERT和BiLSTM的政策工具自动分类方法研究
作者:霍朝光,霍帆帆,王婉如,余芊蓉,杨冠灿
来源:图书情报知识, 2023, 40(3): 129-138.
摘要:政策工具是政府为实现政策目标,将其行政理念转为切实行动的手段和方法,是政策分析的重要维度。鉴于当前政策工具分析仍停留在手工分类阶段,存在标准不统一、难以复现、规模小、成本高等一系列问题,提出构建政策工具自动分类模型。系统梳理了现有的政策工具分类框架,在Rothwell和Zegveld政策工具分类体系基础上,提出基于WordBERT和BiLSTM构建政策工具自动分类模型,以数据治理和数字经济政策数据集为例,自主构建数据集,进行三组实验,验证模型优劣。研究结果表明提出的政策工具自动分类模型效果最好,准确率达到73.91%,为繁琐的政策工具分类提供了一种相对高效的自动分类方法。针对政策工具自动分类这一学科难题,提出利用无监督表示学习和有监督机器学习等算法,进行政策工具自动分类,以锻造政策工具自动量化分析新模块。
题目:垂直领域知识图谱构建及应用平台的设计与实现
作者:张博尧,曹荣强,万萌,孙境棋,王彦棡,王珏,赵永华
来源:数据与计算发展前沿, 2023, 5(3): 111-122.
摘要:知识图谱可以将客观世界的实体、概念、关系等抽象成图数据结构,是垂直领域建模和应用的研究热点,本文研发和实现了从资源调度、知识图谱构建到应用场景全过程的自动化和一体化平台。以微服务架构的方式部署了数据处理、算法仓库及知识图谱公共组件,采用了低耦合、高内聚和多层次的架构以提升平台处理知识抽取、存储与应用等不同任务时多模块间的协作能力,将计算资源虚拟化以提升初始化、生产与日常维护等平台的不同使用阶段的资源调度能力。建成和部署了垂直领域知识图谱构建及应用平台,提供了数据处理、自动化知识抽取、图计算及扩展、图表示学习及应用等功能。以金融领域产业链知识图谱的构建及表示学习应用的过程为例,验证了平台的可用性。该平台实现了垂直领域知识图谱从构建、图表示学习到领域应用的全流程覆盖,有效地降低了用户的使用难度,提高了资源的利用效率,也可以扩展到其它垂直领域。