我国深度求索发布最新开源模型R1 研发成本远低于行业平均水平
| 来源:【字号:大 中 小】
2025年1月20日,杭州深度求索AI基础技术研究有限公司(以下简称“深度求索”)正式发布DeepSeek-R1模型。该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。此外,深度求索还宣布使用MIT许可将其开源,与其他开源许可条款相比,MIT相对宽松,赋予软件被授权人更大的权利与更少的限制。
R1是在DeepSeek-V3的基础上,训练出的新模型。R1在后训练阶段大规模使用了强化学习技术,让大模型学会了自己训练自己,改变了OpenAI开创的大模型训练的“工业流程”,能够极大减少人工和运营的成本,走出了具备中国人自己特色的模型训练之路。
除此之外,此次DeepSeek-R1还融合了“思维链”,在解决问题时,会生成一系列中间推理步骤,在推理过程中会突然停下来说“等等”,然后自发地重新评估之前的步骤,并进行反思。例如,当向其输入“三角形三边长3、4、5,求面积”后,DeepSeek-R1并不是直接反馈计算步骤,而是输出了整个思考过程。
据悉,DeepSeek应用程序已取代竞争对手OpenAI的ChatGPT,成为美国苹果应用商店下载量最大的免费应用程序。此外,R1模型训练成本仅为560万美元,远远低于OpenAI、谷歌等美国科技巨头模型开发成本。OpenAI首席执行官萨姆·奥尔特曼表示“新竞争对手令人振奋”;美国《纽约时报》评价这“是一个里程碑”;英国《金融时报》直言“DeepSeek挑战了AI产业在过去一段时间的关键理念,即认为更强大的硬件才是推动AI发展的关键。”
信息来源:
https://mp.weixin.qq.com/s/gJ7Ki07hXRbwyW162ZDtWg
https://mp.weixin.qq.com/s/YNgFTa5GzKGHFswyNQGFug
https://mp.weixin.qq.com/s/p_Fvy2vlMH4CSqUUJepYjg