微软公司推出可快速模仿人声的AI语音模型
| 来源:【字号:大 中 小】
微软称VALL-E为“神经编解码器语言模型”,它建立在Meta公司于2022年10月宣布的一项名为EnCodec的技术之上。与其他通常通过操作波形合成语音的文本转语音方法不同,VALL-E分析一个人的声音,通过EnCodec将这些信息分解成离散的组件,并使用训练数据来匹配它“知道”的声音,使用生成的声学标记与相应的神经编解码器解码器合成最终波形。
微软基于音频库LibriLight训练了VALL-E模型,该音频库包含来自LibriVox有声读物的6万小时英语演讲。VALL-E模型通过匹配被模仿者与语音库中7000人的声音,找到与之高度相似的声音来进行准确生成。
信息来源:
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/
https://arxiv.org/pdf/2301.02111.pdf