学术视点
| 来源:【字号:大 中 小】
作者:Xintao Chu; Jianping Liu;Jian Wang;Xiaofeng Wang;Yingfei Wang;Meng Wang;Xunxun Gu
来源:arXiv: 2301.12700.
摘要:As the number of open and shared scientific datasets on the Internet increases under the open science movement, efficiently retrieving these datasets is a crucial task in information retrieval (IR) research. In recent years, the development of large models, particularly the pre-training and fine-tuning paradigm, which involves pre-training on large models and fine-tuning on downstream tasks, has provided new solutions for IR match tasks. In this study, we use the original BERT token in the embedding layer, improve the Sentence-BERT model structure in the model layer by introducing the SimCSE and K-Nearest Neighbors method, and use the cosent loss function in the optimization phase to optimize the target output. Our experimental results show that our model outperforms other competing models on both public and self-built datasets through comparative experiments and ablation implementations. This study explores and validates the feasibility and efficiency of pre-training techniques for semantic retrieval of Chinese scientific datasets.
题目:大数据技术前瞻
作者:梅宏、杜小勇、金海、程学旗、柴云鹏、石宣化、靳小龙、王亚沙、刘驰来来源:大数据. 2023, 9(1): 1-20.
摘要:大数据技术涉及从采集、传输到管理、处理、分析、应用的全生命周期以及生命周期各阶段的数据治理。选取数据生命周期中的管理、处理和分析技术以及大数据治理技术来梳理国内外技术发展现状,特别是研判我国大数据技术发展与国际先进技术之间的差距。另外,在大数据应用需求的驱动下,计算技术体系正面临重构,从“以计算为中心”向“以数据为中心”转型,在新的计算技术体系下,一系列基础理论和核心技术问题亟待破解,新型大数据系统技术成为重要发展方向。在计算体系重构的背景下,提出大数据技术发展的四大技术挑战和十大发展趋势。
题目:2022年中国高性能计算机发展现状分析与展望
作者:张云泉、袁良、袁国兴、李希代
来源:数据与计算发展前沿. 2022, 4(6): 3-12.
摘要:本文根据2022年11月发布的中国高性能计算机TOP 100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。中国TOP 100的入门性能门槛仍然超过TOP 500。中国TOP 100上的超级计算系统冠军再次更新,其Linpack性能超过200 PFlops。联想为系统数量冠军,联想、曙光和浪潮三强争霸的局面逐步演化为联想和浪潮的竞争。算力服务这一应用领域的占比继续增长,充分反映当前算力经济发展趋势。本文根据二十一届排行榜的性能数据,详细阐述了算力经济发展现状,并对未来中国大陆高性能计算机的发展趋势进行了分析预测。
题目:英国国家数据安全治理:制度、机构及启示
作者:张涛、崔文波、刘硕、蔡庆平、马海群
来源:信息资源管理学报. 2022, 12(6): 44-57.
摘要:本文从英国国家数据安全治理制度体系和治理机构权责两个方面梳理了英国国家数据安全治理的举措。针对我国数据安全治理现状提出四个方面建议:完善“一中心一张网”的数据安全治理机构体系、构建多利益主体间数据伦理协作机制、建立监管沙盒机制有效防控数据安全风险、完善数据跨境流动安全的制度体系。
题目:PARIS 原则:开放协作环境下科学数据的可用性
作者:沈志宏、张晓林、郑晓欢
来源:大数据. 2096-0271, 2023013.
摘要:科学数据利用的需求日益迫切,且在“第四范式”、“融合科学”等新型科研范式带来的开放协作环境下呈现出跨边界、端到端、动态性和协作化的特征。作为“数据仓储时代”的产物,FAIR、TRUST原则已无法为开放协作环境下科学数据的高效利用提供深入的指导。本文详细分析了科学数据利用的典型场景,提出开放协作环境下促进科学数据利用的PARIS原则:可处理(Processable)、可问答(Askable)、可信赖(Reliable)、可联合(Incorporable)与可供给(Suppliable),并重点分析了PARIS原则对科学数据可用性的促进作用。最后,本文探讨了实现PARIS原则可参考的技术路径。作为FAIR、TRUST原则的有益扩展,期望PARIS原则能有效提升科学数据的可用性。
题目:元宇宙与大数据:时空智能中的数据洞察与价值连接
作者:沈阳、余梦珑
来源:大数据. 2023, 9(1): 103-110.
摘要:元宇宙对时空影响的实质是对时空节点进行数据智能化,并通过虚拟世界对物理世界予以仿真与反馈,而大数据是在此过程中提升人类对世界洞察力的核心手段。从元宇宙概念演绎与定义逻辑出发,梳理了元宇宙“小中大全”4个不同层级的概念维度,并基于对大数据洞察本质的9点思考,提出了5层数据关联模型。从一元宇宙系统的建立再到多元宇宙系统的连接,分别探索元宇宙中的数据产生、数据攫取、数据结构分析与数据价值挖掘等问题,分析在嵌套与融合元宇宙中空间数据、时间数据与国际数据的互联问题,以期通过数据洞察与价值连接更好地认知世界、描述世界与改造世界。
题目:基于算力网络的大数据计算资源智能调度分配方法
作者:金天骄、栗蔚
来源:数据与计算发展前沿. 2022, 4(6): 29-37.
摘要:进入算力时代以来,接入无处不在,万物互联,全社会数据量迎来爆发式增长。我们需要通过算力网络解决大数据计算资源不足、异构算力、边缘算力等问题。基于算力网络,重新设计大数据计算架构,通过资源调度层提供大数据算力调度、资源封装、统一调度的能力。同时,利用粒子群优化算法,在资源调度和分配中智能计算并找到最优节点,从而实现资源分配的最优平衡。通过新的资源调度方式,各类算力智能调度可以从根本上解决大数据计算资源不足、异构算力、边缘算力等问题。基于算力网络的大数据计算资源智能调度分配方法,可以智能调度社会闲置算力、异构算力、边缘算力,从全局角度解决算力需求不足、算力分布不均的问题。
题目:隐私计算场景下数据质量治理探索与实践
作者:张燕、杨一帆、伊人、罗圣美、唐剑飞、夏正勋
来源:大数据. 2022, 8(5): 55-73.
摘要:隐私计算是一种新型数据处理技术,可以在保护数据隐私及安全的前提下,实现数据价值转化和流通。然而隐私计算场景中“数据可用不可见”的特性给传统的数据质量治理工作带来了很大的挑战,业界尚缺乏完善的解决方案。针对上述问题,提出一种适用于隐私计算场景的数据质量治理方法与流程,构建了本地与多方两个层级的数据质量评估体系,能够兼顾本地域及联邦域的数据质量治理工作,同时提出了一种数据贡献度衡量方法,对隐私计算的长效激励机制进行探索,从而提升隐私计算的数据质量,并提高计算结果的精度。