Meta发布支持128种语言的新语音模型,元宇宙无障碍沟通或将成现实

速途网11月23日消息(报道:赵佳茹)近日,Meta 正式发布了一套用于各类语音任务的新型自监督模型——XLS-R。

据悉,XLS-R是由海量公共数据训练而成(数据量是过去的十倍),能够将传统多语言模型的语言支持量增加两倍以上,目前支持 128 种语言。

Meta认为,语音交流是人们最自然的一种交互形式。“随着语音技术的发展,我们已经能够通过对话同自己的设备及未来的虚拟世界直接互动,由此将虚拟体验与现实世界融为一体。”


这与扎克伯格此前宣称的“公司业务将以元宇宙优先”不谋而合。此前,扎克伯格曾概述了他建立“元世界”愿景:一个建立在我们自己的数字世界之上的数字世界,包括虚拟现实和增强现实。“我们相信元宇宙将会接替移动互联网”。

Meta在此基础上推出了包含53种语言的XLSR,而最新发布的XLS-R有128种语言之多,语种数量是XLSR的两倍多,数据量更是XLSR的10倍——共计长达43.6万小时的语音。

作为Meta打造的有史以来最大模型,XLS-R 中包含超过 20 亿个参数,性能远高于其他同类模型。Meta 表示,事实证明,更多参数能够更充分地体现、数据集中的各类语种。此外,Meta 还发现,规模更大的模型在单一语言预训练方面的性能也同样优于其他较小模型。

值得注意的是,为了通过单一模型实现对多种语言的广泛语音理解能力,Meta对 XLS-R 进行了微调,使其获得语音识别、语音翻译及语言识别等功能。据介绍,XLS-R在 BABEL、CommonVoice以及 VoxPopuli语音识别基准测试,CoVoST-2 的外语到英文翻译基准测试,以及 VoxLingua107 语言识别基准测试中都取得了不错的成绩。

(0)
上一篇 2021年11月23日 15:29
下一篇 2021年11月23日 17:14