新突破!网易互娱AI Lab语气词TTS技术将亮相顶会ICASSP 2023

ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。

近日,全球语音、声学顶级会议ICASSP 2023公布了论文入选名单,网易互娱AI Lab一篇学术论文被接收,概述如下。

论文标题:NSV-TTS: NON-SPEECH VOCALIZATION MODELING AND TRANSFER IN EMOTIONAL TEXT-TO-SPEECH

作者:Haitong Zhang,Xinyuan Yu, Yue Lin

业务应用:合成情感语气词,提升情感语音合成的拟人度。

近年来,文本转语音的合成技术已经有显著的发展,合成的语音已经可以有不同情感。但是目前主要的应用和研究还是集中在文字上,忽略了非语音化的发声(Non-speech Vocalization,以下简称NSV),比如哭,笑,咳嗽等声音。这些NSV有强化情感表达的作用,使得语音更具拟人度。针对此问题,该论文提出了一个情感语音合成的模型(叫做NSV-TTS),能够对NSV进行建模和零样本迁移。最终,我们的实验表明:引入自监督的语言单元进行建模不但不会影响原本情感语音合成的整体效果,还能够有效地实现零样本NSV迁移。

模型设计如下图所示:

NSV的建模的困难在于:NSV(比如哭和笑)都是夹杂在其它语音中,传统的建模需要大量人工标注;零样本迁移是指:使用没有录制过NSV声优的声音来合成NSV,该任务本身也极具挑战性。对此,我们提出了以下创新来解决这两个难点。

创新1:该模型采用了自监督学习的模型HuBERT对语音进行自动标注。 使用这种自监督的语言单元能有效解决标注的困难,同时,因为这种自监督的语言单元比音素的颗粒度更细,有益于实现零样本NSV的迁移。

创新2:在模型训练阶段,我们使用音素序列或者自监督的语言单元序列作为建模单元,然而在测试阶段,我们需要使用自监督的语言单元和音素的混合序列,因此会产生训练和测试不匹配的问题。为了减少该问题带来的负面影响,我们提出了单元混合(token mixing)和动态随机掩码(dynamic random mask)的机制,通过在训练的时候动态对部分语音进行掩码,再对该部分语音用对应自监督的语言单元表示,其余部分使用音素表示。这样,我们就可以使得训练阶段和测试阶段的建模序列变成一致了。该部分算法的伪代码如下图:

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。AI Lab所提供的人工智能服务包括计算机视觉、自然语言处理、语音信号处理、游戏AI多个方面。目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》、《荒野行动》等等。

(0)
上一篇 2023年3月16日 11:06
下一篇 2023年3月16日 11:50