美研究人员提出开发统一的AI系统有助于推动科学发现
| 来源:【字号:大 中 小】
2024年12月16日,美国弗吉尼亚理工学院的研究人员发表题为《迈向科学发现的生成式AI:进展、机遇与挑战》的文章,探讨了当前AI在科学发展中的应用现状,概述了开发更全面的科学发现AI系统所面临的关键挑战和应对建议。
文章指出,近年来生成式AI在文献分析与头脑风暴、定理证明、实验设计以及数据驱动发现等科学任务应用中取得了显著进展,展示了生成式AI在支持和加速科学发现方面日益增长的能力。
文章提出开发覆盖科学研究完整周期的更全面、统一的AI发现系统,可能会大幅加速各个科学领域的研究进展,并概括了朝着这一方向迈进的若干挑战:
(1)基准测试设计
现有的基准测试可能无法捕捉到科学发现过程的复杂性,急需更丰富的基准测试和评估框架,以更好地理解基准线与方法之间的差距,并识别改进的方向。
应对该挑战的潜在方式有:开发专注于新颖科学发现而非恢复的基准数据集、创建多方面的科学发现评估指标、让领域专家参与到基准设计和评估中来。
(2)科学智能体建设
目前的科学AI研究通常将模型视为被动工具,而不是主动地追求发现的智能体。开发能够利用广泛科学知识进行推理的科学AI智能体的需求日益增长,这些智能体可生成有根据的假设、设计实验、验证其设计、并解释结果。
然而,开发AI科学智能体面临着若干的挑战。首先,有效的科学智能体需要与专业的科学工具和领域特定知识集成,应对这一挑战的方式有:开发用于整合领域特定知识库和工具接口的模块化架构,并对大模型进行微调,让大模型与专业科学工具进行有效互动。
其次,面向科学的智能体面临的一个重要挑战是,开发能够进行长期、迭代的科学调查系统。这些智能体必须设计实验、解释结果,并在长期过程中不断完善假设,同时保持科学严谨性,避免偏见。应对这一挑战的方式有:开发元学习框架,使智能体能够在多个调查中改进实验设计和假设精化策略;开发层次化规划算法,管理短期实验步骤和长期科学发现目标。
最后,目前的AI科学智能体在深度批判分析和识别AI驱动的假设和实验设计中的科学缺陷方面存在困难。应对这一挑战的方式有:开发模拟科学社区的多智能体系统,融合领域专家的多智能体进化过程,创建增强科学对话能力的基准测试。
(3)多模态科学数据表示
大多数科学数据并不是自然语言的形式,从显微镜图像到基因组序列,从时间序列传感器数据到结构化数据库和数学定律,科学知识本质上是多模态的,而高质量科学数据是构建AI系统的核心要素,因此如何有效集成和统一表征这些不同类型的多模态科学数据也是目前AI驱动科学发现面临的一个重大挑战。应对这一挑战的方式有:推动跨模态科学表征学习和科学领域的迁移学习研究,展开潜在空间科学假设探索,构建多模态科学推理框架。
信息来源:
https://arxiv.org/pdf/2412.11427
https://mp.weixin.qq.com/s/yRGZCpCyZ5xFx3CQmrqunw