Voice Engine模拟人类声线，隐私问题或成重要路卡？

继视频创作模型Sora后，OpenAI又放大招……

日前，OpenAI宣布推出全新人工智能模型。根据官方介绍，此次新闻的“主角”名为Voice Engine，是一款语音创作模型，利用文本输入和单个15秒音频样本，能够生成与原说话者非常相似且情感丰富的自然语音。

图源：网络

谈及Voice Engine，OpenAI官方推特的措辞显得异常小心而谨慎“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会”。

目前，OpenAI仅针对少部分内测用户开放了Voice Engine。

Voice Engine：是颠覆，也做好了风险预设？

事实上，早在2022年底Voice Engine便已经开发完成。彼时，Voice Engine被用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。不过，出于合成语音被滥用的考虑，OpenAI才选择了谨慎有序地推进和发布。

图源：大模型之家

如今，Voice Engine正式上市，不仅解锁了语音模型更多可能性，还为AI在语音创作领域的巨大优势作出了十分具象化的表达。

根据公告显示，OpenAI主要介绍了Voice Engine 5 个合作案例，分别为教育、多语言翻译、社区卫生、辅助通讯、神经科学等领域。于此，我们不禁发问：Voice Engine，到底有何不同呢？

首先，Voice Engine极大地缩短了语音制作周期。以目前最为火热的短视频制作为例，传统的配音制作通常需要经历配音演员录音→编剧/导演调整→后期剪辑制作→导演复审→成片这一流程。而Voice Engine模型则仅需提取相关配音演员的15秒样本，就能创造出富有感情和逼真的声音。从模式上来说，Voice Engine简化了原有的复杂流程，提高了工作效率；从配音演员的角度上看，Voice Engine大大提高了其自身的工作效率，让“批量接活”、“批量成片”成为了现实。

其次，Voice Engine为语音创作提供了更高的创作自由度。相较于传统语音创作，用户只需通过简单15秒的语言情绪表达，便可在Voice Engin的加持下为“成品”赋予多种“地若悬河”的语音表达色彩。众所周知，由于目前市面上的内容分享平台风格特性具有较大的差异化，因此不同平台的“成品”评价标准并不相同，而Voice Engine创作自由度等特点，也在一定程度上为作品与不同平台的适配度奠定了基础。

同时，Voice Engine的语音生成质量也颇为出色。据悉，该技术在语音生成过程中并不使用用户数据进行训练或微调，而是通过结合Diffusion过程与Transformer技术直接生成语音，且在生成后会立即删除使用的音频数据。这使得生成的语音具有高度的还原感的同时，保障了用户隐私。

值得注意的是，Voice Engine使用过程中所涉及到的“合成语音引发的电信诈骗”、“版权侵害”等社会风险问题也引发了大量讨论及担忧。

为此，OpenAI表示采取了一系列措施来确保安全，包括添加水印以追踪使用方式、淘汰基于语音的身份验证、教育公众了解AI技术的能力和局限性等。通过这些举措，OpenAI希望在保证技术潜力的同时，增强对潜在问题的抵御能力。

语音创作行业的双刃剑

诚然，虽然自其问世以来，关于“Voice Engine是否会取代相关工作人员”的争论不绝于耳，但在大模型之家与一众视频、纪录片从业者交流后发现，持“看好态度”的从业者占据比例超过半数。同时，他们强调：Voice Engine不仅会成为语音制作过程中有力的助手，也将一定程度上实现效率、质量双方面的提升。从长远来看，Voice Engine可能会对相关行业产生一定程度的冲击，推动声音工作的标准化、流程化。

同时，Voice Engine模型作为一种强大语音创作的工具，为配音演员提供了一种全新的创作方式。目前，Voice Engine的定价为每百万字符15美元，虽然存在“高清”选项，且其价格是标准价格的两倍，但OpenAI表示两者在声音质量上并无区别。这不仅意味着语音创作门槛的降低，也在一定程度上使配音演员赛道向智能化、统一化过渡。

“Voice Engine生成的语音可能会缺乏某种真实感和细腻度。众所周知，目前社交平台上的广告已经完全摒弃传统广告行业的‘开门见山’，更多的是以剧情化、情感化故事为线索。而人工智能生成的语音或许能通过提取声音素材找到配音演员的‘气息发声特点’，但仍会缺乏某种情感上的共鸣。”国内某综艺后期剪辑师告诉大模型之家。

当然，也有一位视频后期从业者向大模型之家表示了担忧，指出虽然从技术层面不会对语音从业者造成实质性影响，但却可能影响整个视频的良性格局。“这种配音我们在无需真人拍摄，只需从网上寻找素材进行拼凑剪辑的时候会大量使用，但这种情况下生成的成品质量十分‘稳妥’，可以说是千篇一律了”，这种变化可能会影响到整个行业的创新性和市场地位，因此仍然存在一定程度的担忧和不确定性。

因此，大模型之家认为，尽管大众都在讨论Voice Engine问世带来的一些“负面”影响，但其所催化的新机会与新的行业模型才更应被重点关注。Voice Engine的出现不仅简化了语音制作流程，提高了效率，还为配音演员与这项技术的经济互动带来了更多的可能。我们相信，随着Voice Engin技术的普及和应用，拟人化创作的空间将愈加扩大，未来也会有更多出彩的语音创作作品涌现。

当然，从本质上看，Voice Engine是AI语音技术的延伸和发展。它的出现将进一步推动大模型的场景落地及想象边界，促进相关技术的不断迭代和进步。对于整个OpenAI 来说，Voice Engine的问世补全了其多模态 AIGC 工具的又一块拼图，让其成功蜕变为：文生文—GPT、文生图—DALLE、音频转文字（STT）——Whisper、文字转音频（TTS）——Voice Engine、文生视频——Sora、多模态理解——GPT-4v的全能格局。纵使现在格局显得有些零星分散，但却是OpenAI通往 AGI 的道路上，领先且强大的全模态工具箱。