数智化科研

OpenAI推出FrontierScience基准测试 以评估AI的科学推理能力

日期:2025-12-29

|  来源:【字号:

20251216日,美国OpenAI推出专家级基准测试FrontierScience,旨在评估AI大模型执行科学研究任务的能力。

OpenAI介绍,不同于传统基准测试,FrontierScience的最终目标是评估AI大模型在形成科学假设、检验想法和跨学科综合分析等方面的能力。该基准包含700多道由物理学、化学和生物学领域专家编写和验证的原创题目,其中160道构成核心标准评估集。核心标准评估集分为两个部分:FrontierScience-Olympiad部分包含100道由国际科学奥赛奖牌得主设计的高度约束性问题;FrontierScience-Research部分则包含60个开放式的、实际研究工作中可能遇到的科学推理问题。

基于该基准,OpenAI公司初步评估了GPT-5.2Claude Opus 4.5Gemini 3 ProGPT-4oOpenAI o4-miniOpenAI o3等多个前沿模型,其中GPT-5.2FrontierScience-Olympiad(得分77%)和FrontierScience-Research(得分25%)中综合表现最佳。

OpenAI公司表示,目前FrontierScience基准测试虽然提供了更清晰的能力衡量标尺,但尚不能完整评估AI大模型在执行科学研究任务方面的能力,例如它不能评估假设生成、实验执行、多模态现实实验等。在未来,OpenAI将把FrontierScience扩展到更多科学领域,并将其与AI大模型对实际科学突破贡献的现实评价相结合,以实现最终目标:衡量AI大模型是否能帮助产生新颖科学发现。

信息来源:

https://openai.com/index/frontierscience/


附件: