学术视点----中国科学院网信工作网

学术视点

日期：2024-10-28

| 来源：【字号：大中小】

题目：Exploring Fragment Adding Strategies to Enhance Molecule Pretraining in AI-Driven Drug Discovery

作者：Y. Ren et al.

来源：Big Data Mining and Analytics, vol. 7, no. 3, pp. 577-589.

摘要：Accurate prediction of peptide spectra is crucial for improving the efficiency and reliability of proteomic analysis, as well as for gaining insight into various biological processes. In this study, we introduce Deep MS Simulator (DMSS), a novel attention-based model tailored for forecasting theoretical spectra in mass spectrometry. DMSS has undergone rigorous validation through a series of experiments, consistently demonstrating superior performance compared to current methods in forecasting theoretical spectra. The superior ability of DMSS to distinguish extremely similar peptides highlights the potential application of incorporating our predicted intensity information into mass spectrometry search engines to enhance the accuracy of protein identification. These findings contribute to the advancement of proteomics analysis and highlight the potential of the DMSS as a valuable tool in the field.

题目：Knowledge Inference Over Web 3.0 for Intelligent Fault Diagnosis in Industrial Internet of Things

作者：Y. Chi, H. Duan, W. Cai, Z. J. Wang and V. C. M. Leung

来源：IEEE Transactions on Network Science and Engineering, vol. 11, no. 5, pp. 3955-3968

摘要：Collaboration through knowledge sharing is critical for the success of intelligent fault diagnosis in a complex Industrial Internet of Things (IIoT) system that comprises various interconnected subsystems. However, since the subsystems of an IIoT system may be owned and operated by different stakeholders, sharing fault diagnosis knowledge while preserving data security and privacy is challenging. While decentralized data exchange has been proposed for cyber-physical systems and digital twins based on the Web 3.0 paradigm, decentralized knowledge sharing in knowledge-based intelligent fault diagnosis is less investigated. To address this research gap, we propose a Web 3.0 application for collaborative knowledge-based intelligent fault diagnosis using blockchain-empowered decentralized knowledge inference (BDKI). Our proposed mechanism enables workers to self-evaluate their ability to contribute to the knowledge inference with their local knowledge graphs. The knowledge-sharing requestor can then choose a worker with the best evaluation result and initiate collaborative training. To demonstrate the efficiency and effectiveness of BDKI, we evaluate it using well-known datasets. Results show that BDKI delivers a favorable inference model with higher overall accuracy and less training effort compared to inference models trained using conventional knowledge inference with random training sequences.

题目：基于参考的基因序列压缩算法综述

作者：蔡佳威、胡川、王华进、沈志宏

来源：数据与计算发展前沿, 2024, 6(4): 59-76.

摘要：本文主要总结近十五年基于参考的基因序列压缩算法，以寻求加速生物数据共享和降低存储成本的方法。本文从算法的发展角度出发，按照不同算法所使用的关键技术和针对压缩优化的方案进行分类。通过实验验证当前主流算法的性能，揭示当前基于参考的压缩算法所存在的问题。提出一些值得探讨的研究方向，并对未来的研究方向进行了展望。本文分析了已有基于参考的基因序列压缩算法使用的技术，包括基于单核苷酸多态性、检测最大精确匹配、分段/分块处理和基于LZ77等技术。并对几种较著名的算法进行了复现，发现这些算法倾向于在基准数据集上表现出高压缩比，但在普通数据集上的压缩比普遍不高。目前已有的基于参考的基因序列压缩算法在理论上可以加速数据传输效率、节约存储成本，但是实用性存疑。须继续改进公共子序列匹配方式以提升对普通数据集的支持,增加预处理参考序列步骤以降低匹配时间开销。

题目：基于城市知识体系的公共数据要素构建方法

作者：郑宇、易修文、齐德康、潘哲逸

来源：大数据, 2024, 10(4): 130-148.

摘要：数据要素是数字经济发展的核心动能。城市公共数据的基础良好、普适性强、应用场景丰富，成为政府主导的数据要素的首选。当前数据与应用耦合，不同应用之间共享数据难，人工数据治理过程滞后、繁重低效，仅依靠自动抽取技术无法保证数据要素的精度。为此，基于人机智能协同的总体思路，提出基于城市知识体系的数据要素构建方法。首先，对大量城市业务进行解构和抽象，构建以人、地、事、物、组织5类实体，实体间关系及实体属性为核心的城市知识体系，并以这些实体、关系和属性为数据要素的原子描述，向上组合表达各种城市业务，向下形成可标准化的数据资源体系。其次，研发一套数字化控件，承载基于城市知识体系的数据要素化理论，通过灵活配置的方式开发服务于市民的各类应用，使数据在产生时就与城市知识体系关联，自动形成数据要素。最后，构建智能学习和推荐算法，更好地连接数字化控件和城市知识体系，使应用配置人员无须学习城市知识体系就能顺畅地使用数字化控件，降低了工具的使用门槛。该方法可大大提高公共数据要素产生的效率和扩大公共数据要素的规模，释放公共数据要素的价值。

题目：DPML：一种面向科学数据语用的标记语言

作者：蔡华谦、刘逸豪、关天鹏、吴恺东、杨婧如、罗超然、朱小杰、刘佳、黄罡

来源：数据与计算前沿, 2024, 6(4); 46-58

摘要：科学数据的使用场景日益丰富，了解已有场景中科学数据如何使用，对科技探索与发现有很重要的启发和借鉴作用。然而，由于科学数据的场景化使用蕴藏了复杂的输入、算法和执行环境，这使得如何统一地描述数据的场景化使用成为了一个挑战。这种统一描述的缺失导致了理解和学习已有场景中的科学数据的用法变得难度大、成本高、效率低。针对数据场景化使用的统一描述缺失的问题，本文采用数据语用的概念，从超图的角度来建模数据的场景化使用，设计了面向数据语用的新型标记语言DPML，并提出了一套基于AI的科学数据语用的自动化提取方法。DPML可以表征多种典型的基于科学数据的场景化使用中的数据语用，同时利用上述的自动化方法，可以高效地提取出DPML。通过提出DPML及其自动化提取方法，本文实现了科学数据场景化使用中隐含的数据语用的自动化表征。通过数据以及数据之间的语用关系所形成的科学数据的语用网络蕴藏了科学数据如何使用的知识，可以促进科学数据跨学科的共享和再利用，为科学研究的深入合作与数据驱动发现开辟了新的路径。

题目：基于高性能计算环境的科学应用平台工作流设计与实现

作者：武傲、李天颜、张宝花、徐顺、刘倩

来源：数据与计算发展前沿, 2024, 6(4): 150-162.

摘要：为了有效解决领域科学应用计算中的复杂多步计算及高通量计算流程繁琐、低效的问题，本文研究科学应用平台工作流的关键技术。本文将基于高性能计算环境的科学应用平台与工作流的理念相结合，同时适用于多领域、多体系的科学计算软件，为相关高性能计算应用的科学研究与工程研发提供有力支撑。针对不同领域应用需求，本文设计实现了多任务连用工作流和高通量应用计算工作流。多任务连用工作流不仅在服务端和客户端设计了一套通用自定义工作流的逻辑方案，让用户能够自主设计多任务连用，还在高性能计算环境中封装领域特色工作流，满足更特殊专有的需求；高通量应用计算工作流在任务间相互独立的情况下，采用多进程并发以及异步上传文件流的方法提高并发程度，在任务间相互关联的情况下，编写脚本生成批量文件后仅与高性能计算环境交互一次，在申请的计算资源下采用了两层主从模式的负载均衡方案实现子任务间的协同并发。相较于平台普通提交任务方式，多任务连用工作流可以使用户节省接近10倍的时间，高通量应用计算工作流可以在耗时、易用性和自动化程度等方面展现出显著优势。本文设计实现的科学应用平台工作流能够更加高效、自动化地解决众多复杂的应用需求，为广大科研人员带来更优质的高性能计算应用服务。

附件：