微软公司推出可快速模仿人声的AI语音模型----中国科学院网信工作网

技术前沿与科研应用

微软公司推出可快速模仿人声的AI语音模型

日期：2023-03-02

| 来源：【字号：大中小】

2023年1月5日，美国微软公司推出一款名为VALL-E的语音生成模型，仅需3秒音频训练即可模仿人类声音。该模型一旦学会了一个特定的声音，可以复制说话者的情绪和语气，甚至说话者从未说过的单词。考虑到潜在的滥用风险，微软公司尚未将VALL-E模型开源。

微软称VALL-E为“神经编解码器语言模型”，它建立在Meta公司于2022年10月宣布的一项名为EnCodec的技术之上。与其他通常通过操作波形合成语音的文本转语音方法不同，VALL-E分析一个人的声音，通过EnCodec将这些信息分解成离散的组件，并使用训练数据来匹配它“知道”的声音，使用生成的声学标记与相应的神经编解码器解码器合成最终波形。

微软基于音频库LibriLight训练了VALL-E模型，该音频库包含来自LibriVox有声读物的6万小时英语演讲。VALL-E模型通过匹配被模仿者与语音库中7000人的声音，找到与之高度相似的声音来进行准确生成。

信息来源：

https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/

https://arxiv.org/pdf/2301.02111.pdf

附件：

<上一篇