学术视点
| 来源:【字号:大 中 小】
题目:Brain tumor segmentation using synthetic MR images - A comparison of GANs and diffusion models
作者:Usman Akbar, M., Larsson, M., Blystad, I. et al.
来源:Sci Data 11, 259 (2024).
摘要:Large annotated datasets are required for training deep learning models, but in medical imaging data sharing is often complicated due to ethics, anonymization and data protection legislation. Generative AI models, such as generative adversarial networks (GANs) and diffusion models, can today produce very realistic synthetic images, and can potentially facilitate data sharing. However, in order to share synthetic medical images it must first be demonstrated that they can be used for training different networks with acceptable performance. Here, we therefore comprehensively evaluate four GANs (progressive GAN, StyleGAN 1–3) and a diffusion model for the task of brain tumor segmentation (using two segmentation networks, U-Net and a Swin transformer). Our results show that segmentation networks trained on synthetic images reach Dice scores that are 80%–90% of Dice scores when training with real images, but that memorization of the training images can be a problem for diffusion models if the original dataset is too small. Our conclusion is that sharing synthetic medical images is a viable option to sharing real images, but that further work is required. The trained generative models and the generated synthetic images are shared on AIDA data hub.
题目:A deep learning dataset for sample preparation artefacts detection in multispectral high-content microscopy
作者:Sharma, V., Yakimovich, A.
来源:Sci Data 11, 232 (2024).
摘要:High-content image-based screening is widely used in Drug Discovery and Systems Biology. However, sample preparation artefacts may significantly deteriorate the quality of image-based screening assays. While detection and circumvention of such artefacts could be addressed using modern-day machine learning and deep learning algorithms, this is widely impeded by the lack of suitable datasets. To address this, here we present a purpose-created open dataset of high-content microscopy sample preparation artefact. It consists of high-content microscopy of laboratory dust titrated on fixed cell culture specimens imaged with fluorescence filters covering the complete spectral range. To ensure this dataset is suitable for supervised machine learning tasks like image classification or segmentation we propose rule-based annotation strategies on categorical and pixel levels. We demonstrate the applicability of our dataset for deep learning by training a convolutional-neural-network-based classifier.
题目:数据分类分级确权对数据要素价值实现的影响
作者:马费、熊思玥、孙玉姣、王文慧
来源:信息资源管理学报, 2024, 14(1): 4-12.
摘要:数据确权是释放数据要素价值的基础,同时也是数据要素市场正常运行和不断发展的关键支撑。研究梳理了数据确权相关概念以及如何建立产权体系以实现数据确权的路径。在此基础上,本研究明晰了数据分类分级确权的具体方式,并基于价值链分析其对数据价值实现中各个环节的影响。研究结果表明,在数据采集环节数据分类分级确权制度能够激励数据供给,提高数据质量,同时激发市场活力;在数据组织环节,它细分了技术工作,保护隐私数据,并挖掘潜在价值;在数据流通环节,它能调节负外部性、降低交易成本、优化资源配置;最后,在数据利用环节,它在数据合规监管和数据价值再开发方面发挥了关键作用。
题目:自然灾害应急响应科学数据工程体系建设
作者:张耀南、田琛琛、任彦润、康建芳、敏玉芳、张彩荷、艾鸣浩
来源:数据与计算发展前沿, 2024, 6(1): 46-56.
摘要:我国自然灾害随全球气候变化呈现出多发、频发的复杂态势。建立快速、精准、高效的科学数据应急响应支持,是灾害应急救援管理、减少灾害损失、预防次生灾害的重要基础。国家冰川冻土沙漠科学数据中心自2015年开展印尼地震科学数据应急服务以来,基于科学数据资源与信息化技术,构建了多部门联动应急响应、多源数据接引聚合、多源数据融合集成、专题数据制备生产、应急响应数据组织、灾害演变分析、灾情程度评估、次生灾害评估预警、数据共享推送服务9个数据工程体系。初步形成了科学数据灾害应急响应服务平台,可实现灾害发生后24小时内迅速做出科学数据灾害应急响应服务。先后16次完成了国内甘肃张掖肃南,青海玛多、门源、茫崖、德令哈,四川马尔康、泸定、芦山,国际土耳其、阿富汗、塔吉克斯坦地震,以及青海大通山洪的科学数据应急响应服务,为灾害救援、灾情调查评估提供了科学数据支撑。创新了科学数据服务于防灾减灾的应用场景。截至2023年3月底,已有18.9万余人次下载了2.6 PB的应急科学数据,在支持灾害应急救援、灾情调查评估和灾害成因研究中取得了较好的应用成效。
题目:主权视角下重要数据治理体系构建——基于压电式理论
作者:冉从敬、段文娇、何梦婷
来源:信息资源管理学报, 2024, 14(1): 33-43.
摘要:重要数据治理是维护国家数据主权安全、建设国家数据治理体系的核心环节,而我国的重要数据治理工作起步较晚,亟需结合国际经验,构建重要数据治理体系,提升国家数据治理能力。通过调研国内外重要数据治理相关理论与政策法规,总结欧美重要数据治理模式,分析我国重要数据治理进展,提出我国重要数据治理中存在的事前、事中、事后风险;在数据主权视角下,构建覆盖重要数据全生命周期、多主体参与的基于压电式理论的重要数据治理体系,提出事前监测、事中响应、事后反馈的重要数据闭环治理链路。
题目:eMD:基于异构计算的大规模分子动力学模拟软件
作者:徐顺、张宝花、刘倩、金钟
来源:数据与计算发展前沿, 2024, 6(1): 21-34.
摘要:。异构计算已经成为高性能计算的重要组成部分,GPU异构计算可显著提速计算密集型的分子动力学模拟应用,本文介绍自研分子动力学模拟软件eMD的系统设计及其异构计算应用。首先介绍eMD软件的目标定位,包括应用功能和计算性能两方面;然后介绍软件概要设计,包括框架、模块和接口等组成部分;重点围绕面向异构计算的软件架构设计和移植优化技术进行阐述。eMD软件系统基于GPU异构计算可实现大规模体系模拟,同时提供特色的分子动力学模拟算法和模型。eMD将充分发挥GPU异构计算算力,以提升分子动力学模拟应用效率,助力分子建模理论方法的创新应用和分子科学问题的研究。
题目:面向“十四五”规划建设目标的社会公众开放政府数据利用行为比较研究
作者:王迪、胡江枫、张芮、周力虹
来源:信息资源管理学报, 2024, 14(1): 98-107.
摘要:开放政府数据是国家公共数据资源体系的重要组成部分。“十四五”规划强调通过数字社会建设持续提升社会公众的获得感。社会公众是开放政府数据的利用主体和主要受益者。本研究以“十四五”开局之年作为分界点,构建包含数据认知、数据需求、获取途径和消费目的的研究框架,调查并分析了从“十三五”到“十四五”建设时期,我国社会公众对开放政府数据的利用行为变化,探索了社会公众的开放政府数据利用要素间的关系。基于主要研究发现,结合我国“十四五”规划关于数字化发展的建设目标,探讨了未来我国开放政府数据的发展途径。