数字技术与基础设施

Meta推出AI大模型Llama 3

日期:2024-07-18

|  来源:【字号:

2024418日,Meta正式发布开源大模型Llama 3Llama 3模型现已覆盖InstagramWhatsAppFacebook等多种应用。

Llama 3Llama 2的基础上有了显著改进。Llama 3在两个定制的24K GPU集群上、基于超过15T token的数据上进行了训练。训练数据集是Llama 2的七倍以上,训练效率比Llama 23倍,具备更广泛的数据处理能力,能支持8K上下文长度,是Llama 2容量的两倍。其中,token是处理文本的最小单元或基本元素。

同时,Llama 3还采用了先进的指令调整技术,包括监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO),极大地提高了在推理和编码任务上的性能。

Meta表示,Llama 3在多个基准测试中性能优于业界同类模型,能进行复杂的推理。此外,Meta正在开发一个超过4000亿参数的高级模型,将引入多模态和多种语言处理能力。

信息来源:

https://www.unite.ai/unveiling-meta-llama-3-a-leap-forward-in-large-language-models/


附件: