网易互娱AI Lab 斩获“OLR2021东方语种识别”国际竞赛双料冠军

2022年1月14日，由厦门大学、清华大学、海天瑞声、西北工业大学及昆山杜克大学联合主办，中国计算机学会语音对话与听觉专委会、中文信息学会协办的第六届“OLR2021东方语种识别”国际竞赛研讨会在线上成功召开。网易互娱AI Lab在本次竞赛中以绝对领先的优势夺取了多语种语音识别赛道双料冠军，分别是多语种语音识别受限任务的第一名和多语种语音识别开放任务的第一名。

东方语种识别竞赛主要专注于东亚（中国、日本、韩国等）以及东南亚（印尼、越南等）地区的语言研究。此次比赛多语种语音识别任务突破了历届比赛仅识别语种的任务限制，在不给定测试语音语种标签的情况下，参赛队伍模型需要识别出多语种混合测试集的语音内容。今年已经是OLR比赛的第六届，本届比赛吸引来自中国、加拿大、印度等国家的高校和企业参加。

图1. OLR历届冠军队伍及2021参赛队伍信息

本次比赛多语种语音识别赛道的任务是构建包含13种语言（普通话、粤语、日文、印尼语、越南语以及地区方言等）的混合语音识别系统。而其中受限任务赛道每种语言仅提供约10小时带标签训练数据，训练数据资源的稀缺使得设计相应模型具有较大的挑战。针对比赛中的难点，网易互娱AI Lab采用基于Hybrid和E2E的结构，针对普通话、粤语、上海话、日语和印尼语，使用Hybrid结构并训练相应单语种语音识别模型，该方法在低资源数据场景下，可以获得比E2E模型更好的结果；针对其他语言，由于缺少发音词典和文本数据，则使用多种语言混合训练E2E结构。比赛通过语种识别模型将多语种模型和单语种模型进行耦合，进一步提升性能。

比赛使用CER（字符错误率）作为评价指标，CER越小表示系统识别率越高。在受限任务赛道上，网易互娱AI Lab取得13.1%的平均CER，字符错误率比官方基线系统相对降低66%，比第二名相对降低28%。值得一提的是，网易互娱AI Lab的多语种单模型亦超过第二名的融合系统。在实际工业级语音识别应用中，使用单系统部署可以降低服务成本，也便于快速更新维护。

图2. 多语种语音识别受限赛道排名情况

在开放任务赛道上，网易互娱AI Lab基于受限赛道系统，融合了中文普通话、日语、印尼语等三个利用外部数据的模型，取得12.6%的CER，字符错误率比第二名相对降低30%。

图3. 多语种语音识别开放赛道排名情况

目前，网易互娱多语种语音识别的应用价值主要在海外业务应用场景。对于海外语音识别，仅根据用户手机语言设置、IP所在地区进行相应语言、语种的判断，无法做到非常高的准确率。通过使用多语种语音识别系统，在一定程度上可以解决/缓解语种不匹配导致的语音转文字语种混乱问题。针对东南亚地区，网易互娱AI Lab目前已支持集印尼、马来、英语三种语言于一体的多语言混合语音识别系统，该系统可以同时支持3种语言的语音识别。

网易互娱AI Lab成立于2017年，隶属于网易互动娱乐事业群，在广州、杭州、上海均有分部，是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理，以及强化学习等技术在游戏场景下的研究，应用和落地，旨在通过AI技术助力互娱旗下热门游戏及产品的技术升级，目前技术已应用于网易互娱旗下多款热门游戏，如《梦幻西游》《哈利波特：魔法觉醒》《阴阳师》《天下3》等等。