学术视点
| 来源:【字号:大 中 小】
题目:Crowdsourced Federated Learning Architecture with Personalized Privacy Preservation
作者:Y. Xu, X. Qiu, F. Zhang and J. Hao
来源:Intelligent and Converged Networks, vol. 5, no. 3, pp. 192-206.
摘要:In crowdsourced federated learning, differential privacy is commonly used to prevent the aggregation server from recovering training data from the models uploaded by clients to achieve privacy preservation. However, improper privacy budget settings and perturbation methods will severely impact model performance. In order to achieve a harmonious equilibrium between privacy preservation and model performance, we propose a novel architecture for crowdsourced federated learning with personalized privacy preservation. In our architecture, to avoid the issue of poor model performance due to excessive privacy preservation requirements, we establish a two-stage dynamic game between the task requestor and clients to formulate the optimal privacy preservation strategy, allowing each client to independently control privacy preservation level. Additionally, we design a differential privacy perturbation mechanism based on weight priorities. It divides the weights based on their relevance with local data, applying different levels of perturbation to different types of weights. Finally, we conduct experiments on the proposed perturbation mechanism, and the experimental results indicate that our approach can achieve better global model performance with the same privacy budget.
题目:Quantum chemical calculation dataset for representative protein folds by the fragment molecular orbital method
作者:Takaya, D., Ohno, S., Miyagishi, T. et al.
来源:Sci Data 11, 1164 (2024).
摘要:The function of a biomacromolecule is not only determined by its three-dimensional structure but also by its electronic state. Quantum chemical calculations are promising non-empirical methods available for determining the electronic state of a given structure. In this study, we used the fragment molecular orbital (FMO) method, which applies to biopolymers such as proteins, to provide physicochemical property values on representative structures in the SCOP2 database of protein families, a subset of the Protein Data Bank. Our dataset was constructed by over 5,000 protein structures, including over 200 million inter-fragment interaction energies (IFIEs) and their energy components obtained by pair interaction energy decomposition analysis (PIEDA) using FMO-MP2/6-31 G*. Moreover, three basis sets, 6-31 G*, 6-31 G**, and cc-pVDZ, were used for the FMO calculations of each structure, making it possible to compare the energies obtained with different basis functions for the same fragment pair. The total data size is approximately 6.7 GB. Our dataset will be useful for functional analyses and machine learning based on the physicochemical property values of proteins.
题目:机器学习安全推理研究综述
作者:龙春、李丽莎、李婧、杨帆、魏金侠、付豫豪
来源:数据与计算发展前沿, 2024, 6(5): 1-12.
摘要:对机器学习安全推理现有的研究工作进行分析,对未来的研究方向进行展望。以不同方案的安全假设为分类依据,对采用不同的技术组合、应用于不同机器学习场景的安全推理技术进行分析比较。目前的方案可实现机器学习的安全推理,但在计算效率、安全保护能力、可扩展性以及实际应用场景的适应性方面存在局限。受限于能够获取到的资料,未能对所分析的方案在同一基准下进行实验及比较。根据应用场景进行机器学习安全推理的方案设计,在确保安全的前提下提高可用性并降低开销成本,将是该领域的长期发展方向。
题目:基于扎根理论和机器学习的隐私政策诱导同意研究
作者:陈梦蕾、罗颖嘉、朱侯
来源:信息资源管理学报, 2024, 14(5): 75-90.
摘要:从用户角度分析隐私政策的诱导同意倾向、探索诱导同意机制,有利于在帮助用户辨别不公隐私条款的同时,为监管部门规范APP隐私政策制定提供指导。研究采用扎根理论从用户视角分析隐私政策的诱导同意倾向,归纳构建隐私政策诱导同意编码体系,人工标注语料后通过半监督学习训练K-BERT模型,实现隐私政策中含诱导同意倾向语句的自动化识别,并通过进一步的网络分析、序列模式挖掘探究隐私政策诱导用户同意的特征及深层规律。本研究提出的模型实现了自动化识别隐私政策诱导同意语句的目标,并通过实证分析发现,用户机会成本、隐私管理成本、模糊概念处于诱导维度关系网络的核心,其中模糊概念和推卸责任语句在隐私政策构成模式化诱导性行文中发挥重要作用,通常先后密集地出现在其他不公平语句后;儿童领域与其他领域APP隐私政策的诱导同意特征间存在显著差异,且部分领域隐私政策间存在一些共性特征,可能与其服务提供方式与商业逻辑的相似性有关。
题目:国际生物数据共享服务体系运行模式研究
作者:汪嘉葭、孟珍、王诚瑞、林青慧、陈昕、吴朋民、赵静宜、王学志、周园春
来源:数据与计算发展前沿, 2024, 6(5): 24-35.
摘要:通过对国际生物数据共享服务体系以及国内科学数据共享服务体系的运行模式进行调研,从协作运行模式、相关政策支持、资助保障支持、运营管理支撑、基础设施支撑、规范标准支撑、工具技术支撑方面进行深入分析。采用网络调研和文献分析法,对数据共享体系的文献资料进行检索和分析。各国在生物数据共享方面的布局不同。欧美等发达国家较早建立较为完善的管理体系,形成了良好的生物数据生态环境。美国、日本等国家的生物数据中心采用集中模式,实现资源的集中管理和监控;而瑞士采用联合协作模式,由多个团体协作管理运行,但保持团队独立性。我国亟需加快生物数据共享体系的建设,当前在科学数据共享服务系统的建立中进行了积极探索,并已形成了有效的管理模式。通过对现有运行模式的调研,考虑到我国生物数据资源分布情况、研究医疗机构的特点以及生物数据安全等多种因素,认为在建设国家生物数据共享体系的过程中,可以采用“中心和节点的联合协作模式”,加强核心节点建设,提供基础支撑,构建互联互通的生物数据共享网络。在服务体系上,可以结合联合协作的运营模式,推动节点基础设施、技术服务、领域方向等多方面的合作,促进生物医学研究的创新发展。
题目:中国数字经济空间网络及溢出效应研究
作者:牛奉高、史若玉
来源:大数据, 2024, 10(4): 161-171.
摘要:随着数字技术的蓬勃发展,数字经济成为一种全新的经济模式,为改善供需匹配、提升资源配置和促进经济转型升级提供了强大动力。为了全面分析数字经济发展的整体情况和空间关系,首先,对中国的31个省、区、市建立了数字经济评价指标体系,并通过修正的引力模型计算引力值,进而构建空间网络;然后,通过全局莫兰指数探究数字经济发展水平在空间上的依赖关系;最后,建立时空双固定杜宾模型,分析数字经济发展水平的影响因素和溢出效应。结果表明:中国数字经济发展空间网络不够紧密,区域间差异明显,邻近相依;城镇化水平的提升不仅促进本省、区、市的数字经济发展,还能间接带动邻省、区、市的发展,有很强的空间溢出效应,但人力资本水平对周边地区的数字经济发展有抑制效应。