学术视点
| 来源:【字号:大 中 小】
题目:A Real-world Dataset and Benchmark For Foundation Model Adaptation in Medical Image Classification
作者:Wang, D., Wang, X., Wang, L. et al.
来源:Scientific Data. 2023.
摘要:Foundation models, often pre-trained with large-scale data, have achieved paramount success in jump-starting various vision and language applications. Recent advances further enable adapting foundation models in downstream tasks efficiently using only a few training samples, e.g., in-context learning. Yet, the application of such learning paradigms in medical image analysis remains scarce due to the shortage of publicly accessible data and benchmarks. In this paper, we aim at approaches adapting the foundation models for medical image classification and present a novel dataset and benchmark for the evaluation, i.e., examining the overall performance of accommodating the large-scale foundation models downstream on a set of diverse real-world clinical tasks. We collect five sets of medical imaging data from multiple institutes targeting a variety of real-world clinical tasks (22,349 images in total), i.e., thoracic diseases screening in X-rays, pathological lesion tissue screening, lesion detection in endoscopy images, neonatal jaundice evaluation, and diabetic retinopathy grading. Results of multiple baseline methods are demonstrated using the proposed dataset from both accuracy and cost-effective perspectives.
题目:ThoughtSource: A central hub for large language model reasoning data
作者:Ott, S., Hebenstreit, K., Liévin, V. et al.
来源:Large language models (LLMs) such as GPT-4 have recently demonstrated impressive results across a wide range of tasks. LLMs are still limited, however, in that they frequently fail at complex reasoning, their reasoning processes are opaque, they are prone to ‘hallucinate’ facts, and there are concerns about their underlying biases. Letting models verbalize reasoning steps as natural language, a technique known as chain-of-thought prompting, has recently been proposed as a way to address some of these issues. Here we present ThoughtSource, a meta-dataset and software library for chain-of-thought (CoT) reasoning. The goal of ThoughtSource is to improve future artificial intelligence systems by facilitating qualitative understanding of CoTs, enabling empirical evaluations, and providing training data. This first release of ThoughtSource integrates seven scientific/medical, three general-domain and five math word question answering datasets.
题目:基于软件防护扩展的车联网路况监测安全数据处理框架
作者:冯睿琪、王雷蕾、林翔、熊金波
来源:计算机应用, 2023, 43(6): 1870-1877.
摘要:车联网(IoV)路况监测需要对用户隐私数据进行传输、存储与分析等处理,因此保障隐私数据安全尤为重要,然而传统的安全解决方案难以同时保障实时计算与数据安全。针对上述问题,设计了两个初始化协议与一个定期报告协议等安全协议,并构建了基于软件防护扩展(SGX)技术的IoV路况监测安全数据处理框架(SDPF)。SDPF利用可信硬件在路侧单元(RSU)内实现隐私数据的明文计算,并通过安全协议和混合加密方案保证框架的高效运行与隐私保护。安全性分析表明,SDPF可抵御窃听、篡改、重放、假冒、回滚等攻击。实验结果表明,SDPF的各项计算操作均为毫秒级,尤其是单车辆的所有数据处理开销低于1 ms。与基于雾计算的车联网隐私保护框架(PFCF)和基于同态加密的云辅助车载自组织网络(VANET)隐私保护框架(PPVF)相比,SDPF的安全设计更加全面,单会话消息长度减少了90%以上,计算时间至少缩短了16.38%。
题目:有监督学习算法在材料科学中的应用
作者:刘端阳、魏钟鸣
来源:数据与计算发展前沿, 2023, 5(4): 38-47.
摘要:本文希望对近年来机器学习在材料学研究中的应用做一概略的介绍,为相关的研究提供一定的参考。本文主要参考引述了近几年来材料数据库相关文献,以及使用机器学习算法进行材料性能预测、发现新材料的研究论文。本文介绍了有监督机器学习的处理流程,并介绍了多种有监督机器学习算法在材料科学中的应用现状。机器学习算法,帮助总结了材料性能与材料的组成元素、晶格结构等的规律,对发现新材料具有重要的意义,而机器学习力场方法则展现出处理复杂的相变、界面等问题的潜力。鉴于目前掌握的研究水平,主要重点介绍的是有监督机器学习方法在材料性能预测等几个领域的应用,对于无监督学习以及其他材料研究领域的引述尚缺乏。这是一个新兴的领域,未来将成为材料科学的一个重要组成部分。
题目:基于机器学习的力场模型研究综述
作者:陈美霖、刘端阳、徐黎明、汪洋
来源:数据与计算发展前沿, 2023, 5(4): 27-37.
摘要:在过去的几十年里,由于原子结构以及计算的复杂性,传统力场方法在解决某些问题时较为吃力。而机器学习方法的引入,有望解决许多曾经无法攻克的难题,平衡计算效率和计算精度之间的制约关系。该方法不依赖于先入为主的知识,通过从小规模高精度分子动力学模拟数据中学习来对力场进行建模,同时对原子核和核外电子的运动做了近似假设,从而很大程度上简化了力场的生成过程。机器学习力场旨在达到与传统力场几乎同样的精度并大幅度地提高计算效率。本文概述了机器学习力场的发展以及其相关理论知识,介绍了几种比较常见的机器学习力场方法,最后探讨了机器学习力场的不足以及未来需要克服的挑战。
题目:深度学习在天气预报领域的应用分析及研究进展综述
作者:董润婷、吴利、王晓英、曹腾飞、黄建强、管琴、吴洁瑕
来源:计算机应用, 2023, 43(6): 1958-1968.
摘要:随着传感器网络和全球定位系统等技术的进步,兼有时间与空间特性的气象数据体量呈爆炸式增长,针对时空序列预测(STSF)的深度学习模型研究得到了迅猛发展。然而,长期以来用于天气预报的传统机器学习方法在提取数据的时间相关性与空间依赖性方面的效果往往并不理想。与此同时,深度学习方法通过人工神经网络自动提取特征,可以有效提高天气预报的准确度,并且在编码长期空间信息的建模方面有相当优秀的效果。同时,由观测数据驱动的深度学习模型与基于物理理论的数值天气预报(NWP)模型结合的方式可以构建拥有更高预测精度与更长预报时间的混合模型。基于这些,将深度学习在天气预报领域的应用分析及研究进展进行了综述。首先,将天气预报领域的深度学习问题与经典深度学习问题从数据格式、问题模型与评价指标这3个方面进行了对比研究;然后,回顾了深度学习在天气预报领域的发展历程与应用现状,并总结分析了深度学习技术与NWP结合的最新进展;最后,展望了未来的发展方向和研究重点,为天气预报领域的深度学习研究提供参考。