OpenAI推出FrontierScience基准测试 以评估AI的科学推理能力
| 来源:【字号:大 中 小】
2025年12月16日,美国OpenAI推出专家级基准测试FrontierScience,旨在评估AI大模型执行科学研究任务的能力。
据OpenAI介绍,不同于传统基准测试,FrontierScience的最终目标是评估AI大模型在形成科学假设、检验想法和跨学科综合分析等方面的能力。该基准包含700多道由物理学、化学和生物学领域专家编写和验证的原创题目,其中160道构成核心标准评估集。核心标准评估集分为两个部分:FrontierScience-Olympiad部分包含100道由国际科学奥赛奖牌得主设计的高度约束性问题;FrontierScience-Research部分则包含60个开放式的、实际研究工作中可能遇到的科学推理问题。
基于该基准,OpenAI公司初步评估了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini和OpenAI o3等多个前沿模型,其中GPT-5.2在FrontierScience-Olympiad(得分77%)和FrontierScience-Research(得分25%)中综合表现最佳。
OpenAI公司表示,目前FrontierScience基准测试虽然提供了更清晰的能力衡量标尺,但尚不能完整评估AI大模型在执行科学研究任务方面的能力,例如它不能评估假设生成、实验执行、多模态现实实验等。在未来,OpenAI将把FrontierScience扩展到更多科学领域,并将其与AI大模型对实际科学突破贡献的现实评价相结合,以实现最终目标:衡量AI大模型是否能帮助产生新颖科学发现。
信息来源:
https://openai.com/index/frontierscience/
