美加州大学联合Meta AI推出d1新框架 大幅提升AI推理速度
| 来源:【字号:大 中 小】
据VentureBeat网2025年4月28日消息,美国加州大学洛杉矶分校(UCLA)联合Meta AI推出新的开源框架d1,通过强化学习技术显著提升了扩散式大语言模型(dLLMs)的推理能力。
该框架包含两个阶段的后期训练过程:第一阶段,模型在高质量推理轨迹中进行监督微调;第二阶段,即强化学习阶段,研究人员采用名为diffu-GRPO的新算法进行强化学习训练,这一算法为dLLMs估计对数概率提供了一种高效方法,并在每次更新步骤中随机遮蔽部分输入提示,从而增强模型的学习效果。
测试结果显示,经过d1处理的模型在各项任务中表现出色,尤其是在生成较长的响应时,模型显示出自我修正和回溯的能力,表明其具备更强的解决问题的策略。
信息来源:
https://venturebeat.com/ai/30-seconds-vs-3-the-d1-reasoning-framework-thats-slashing-ai-response-times/
https://mp.weixin.qq.com/s/QPPw0_K35wtXDU_g4NTGhw
