学术视点
| 来源:【字号:大 中 小】
作者:Xiaoou Ding, Hongzhi Wang, Genglong Li, Haoxuan Li, Yingze Li,Yida Liu
来源:Intelligent and Converged Networks. 2022, 3(4).
摘要:Data cleaning is considered as an effective approach of improving data quality in order to help practitioners and researchers be devoted to downstream analysis and decision-making without worrying about data trustworthiness. This paper provides a systematic summary of the two main stages of data cleaning for Internet of Things (IoT) data with time series characteristics, including error data detection and data repairing. In respect to error data detection techniques, it categorizes an overview of quantitative data error detection methods for detecting single-point errors, continuous errors, and multidimensional time series data errors and qualitative data error detection methods for detecting rule-violating errors. Besides, it provides a detailed description of error data repairing techniques, involving statistics-based repairing, rule-based repairing, and human-involved repairing. We review the strengths and the limitations of the current data cleaning techniques under IoT data applications and conclude with an outlook on the future of IoT data cleaning.
题目:Survey of Distributed Computing Frameworks for Supporting Big Data Analysis
作者:Xudong Sun, Yulin He, Dingming Wu, Joshua Zhexue Huang
来源:Big Data Mining and Analytics. 2023, 6(2): 154-169.
摘要:Distributed computing frameworks are the fundamental component of distributed computing systems. They provide an essential way to support the efficient processing of big data on clusters or cloud. The size of big data increases at a pace that is faster than the increase in the big data processing capacity of clusters. Thus, distributed computing frameworks based on the MapReduce computing model are not adequate to support big data analysis tasks which often require running complex analytical algorithms on extremely big data sets in terabytes. In performing such tasks, these frameworks face three challenges: computational inefficiency due to high I/O and communication costs, non-scalability to big data due to memory limit, and limited analytical algorithms because many serial algorithms cannot be implemented in the MapReduce programming model. New distributed computing frameworks need to be developed to conquer these challenges. In this paper, we review MapReduce-type distributed computing frameworks that are currently used in handling big data and discuss their problems when conducting big data analysis. In addition, we present a non-MapReduce distributed computing framework that has the potential to overcome big data analysis challenges.
题目:基于算力网络的元宇宙分层处理模型设计
作者:王子航、禹向群、斯洪标、傅思敏、张旭龙、彭绍亮
来源:大数据. 2023, 9(1): 51-62.
摘要:元宇宙是对现实世界虚拟化、数字化的过程,融合了多种技术。虚拟现实和区块链是构建元宇宙的底层技术,但两者在数据处理和算力需求上有很大不同。为了解决元宇宙中区块链和虚拟现实的数据异构、算力异构等问题,提出“元算中心”的概念,并且在硬件架构上将元算中心、区块链节点、边缘服务器组成算力网络。元算中心集中处理元宇宙虚拟场景渲染数据与虚拟人物的交互;数字资产和个人信息利用区块链在多个分布式节点上进行脱敏存储;边缘服务器敏捷响应用户请求,并作为区块链的轻节点存储部分信息。在软件架构上,结合硬件架构设计分层处理模型,将模型数据、资产数据等异构数据放在不同软件层处理。最后结合软硬件架构,设计并实现了元宇宙购物商城原型系统,为将来的元宇宙应用提供一定的参考。
题目:国外政府数据资产管理的主要做法与基本经验
作者:夏义堃、管茜
来源:信息资源管理学报. 2022, 12(6): 18-30.
摘要:数字化时代政府数据量的急剧扩张与技术手段的快速更新,特别是随着各国大数据战略、开放政府数据战略、人工智能战略、数字经济战略的持续推进,数据作为战略资产的重要价值已成为全球共识。本文以美国、英国、澳大利亚等代表性国家政府数据资产管理相关战略、政策及实践举措为研究对象,以政府数据价值实现和风险平衡为核心,分析政府数据资产管理的共性特征与基本经验,即宏观上树立全面的数据资产观、推进数据资产管理的统筹布局,中观上以政策内容强化数据资产的过程管理,微观上以技术、多元伙伴、能力等要素的综合应用全面支持数据资产管理水平的提升。
题目:国际视野下面向人文研究的数据基础设施分析与探讨
作者:饶梓欣、邓璐芗、许鑫
来源:图书情报知识. 2022, 39(5): 31-41,11.
摘要:分析国际主要的面向人文研究的数据基础设施建设现状,为我国建设针对人文研究的数据基础设施提供参考。以面向人文研究的数据基础设施为对象,以Re3data.org中隶属于人文学科的326个数据基础设施的注册数据为数据源,利用统计分析、社会网络分析和文本分析等方法,从时间、地域、机构、数据类型、内容主题、技术应用和标准政策七个维度总结建设特征。国际上面向人文研究的数据基础设施处于转型期;欧美地区占领数据基础设施建设高地;结构化组织占据合作建设优势;不同学科数据类型存在差异;三大主题成为建设热点;技术应用助力开放共享;标准政策覆盖对象较广。利用定量分析方法从多维度探索人文研究数据基础设施概貌特征,并结合我国实际情况,探讨人文研究数据基础设施的发展路径。
题目:数据信托的内涵、生成逻辑与实现路径——基于数据流通视角的分析
作者:夏义堃、管茜、李纲
来源:图书情报知识. 2022, 39(5): 109-119.
摘要:作为新兴的数据监管模式和数据资产管理方式,数据信托对于促进数据流通和数据要素市场建设具有重要意义。在文献调研和比较分析的基础上,结合数据权利理论、流通理论、公共信托理论等多学科思维,多角度分析数据信托的内涵、现实意义、理论基础和实施路径。数据信托作为新兴中介机构、新型数据关系和监管工具,蕴含价值与安全并重的学理内涵、实施公平透明的运行机制、建设可信的生态环境,破解了传统数据流通的主体活力不足、信任危机、空间收缩等问题。数据信托的健康发展需要数据法规体系、数据安全治理、信托运营规则、可信数据生态等要素的协同治理。厘清了数据信托的内涵框架,从数据流通而非个人数据管理视角分析数据信托的监管效用和市场价值,为我国数据要素市场建设、数据信托产业发展提供参考。
题目:基于隐私计算的网络会议数字评选系统设计方案
作者:王腾腾、崔喆、唐聃
来源:计算机应用. 2023, 43(2): 450-457.
摘要:针对目前网络会议数字评选系统无法做到既保证评审人意见的隐私性又获得安全可信的结果的问题,提出一种基于隐私计算的网络会议数字评选系统设计方案。首先,通过里所(RS)码的编码矩阵对评审数据进行秘密分享以得到秘密份额,并将每一方评审数据的哈希值作为存根交由主办方存档以防止抵赖;然后,通过编码矩阵之单调扩张矩阵对秘密份额进行协同计算以得出计票结果;最后,通过校验矩阵检查多方协同计算过程中是否有秘密份额的分享错误或篡改行为存在。结果表明,所提方案可在中小规模的网络会议数字评选系统中实现隐私计算功能。