网易 AI Lab 斩获全球顶级声纹识别竞赛冠军

　　近日，全球最大的语音会议INTERSPEECH 2020公布了SdSV声纹识别比赛成绩，网易AI Lab 从众多国际顶级队伍中脱颖而出，获文本相关声纹识别赛道综合排名第一、单模型第一的双料冠军。彰显了网易AI Lab在语音声纹识别技术领域的领先地位。

　　本次国际声纹识别比赛是业界非常具备权威性的赛事，参赛队伍来自国际多家知名高校与企业，包括近两年全球各项声纹识别比赛中的“常胜将军”：布尔诺工业大学、新加坡通信研究院、约翰霍普金斯大学等。

　　比赛中，网易 AI Lab 基于常见的X-Vector和PLDA算法，创新地提出了一种ASR-free的文本相关声纹识别算法。相比传统的Deep Speaker Embedding方法，该算法不需要依赖语音识别，就能够在多语言环境下，同时完成说话人和文本内容的验证。

　　比赛采用MinDCF（最小检测代价）和EER（等错误率）作为评测指标。网易AI Lab的单模型在两个指标均为最佳，其中EER达到了1.67%，相比第二名降低了11.6%，并远低于比赛 X-Vector基线系统（EER=9.05%）。

　　评估算法系统性能时常输出ROC 曲线，用于描述FAR（误识率）与FRR（拒识率）之间的关系。

　　简单说，在声纹识别中，误识率就是“把不应该匹配的声纹当成匹配声纹”的比例，拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

　　在对安全要求非常高的应用场景，就会把FAR值设置得低一些，因为判断错一次的代价很大，但这样做的同时会导致FRR值上升，用户体验度下降。

　　等错误率（EER）是系统的误识率（FAR）和拒识率（FRR）相等时的错误率，即ROC曲线与45度角直线相交的点，是衡量声纹识别算法系统综合性能的重要指标。EER数值越小，系统性能越好。

　　声纹识别是生物识别技术的一种，也称为说话人识别，是一种通过声音判别说话人身份的技术。

　　目前，人工智能主要有三个研究方向：视觉识别、智能语音、NLP自然语言处理。其中，在语音识别领域，声纹识别属于相对蓝海市场，解决的主要是“我是我”的身份认证问题，多应用在安全验证场景。

　　从近几年的市场趋势来看，银行，金融服务，保险已成为声纹识别应用的领导领域。

　　随着技术的不断成熟和融合，声纹识别技术将逐渐融入日常生活，根据不同应用场景的特点进行针对性开发，将产生巨大的应用价值。

　　而网易 AI Lab 声纹识别技术其实早已被运用于游戏场景中。除了进行游戏身份验证，还能够针对音色对用户进行分类、丰富玩家画像，从而更加精准地为玩家推荐志趣相投的好友、匹配实力相当的对手，为玩家带来更好的游戏体验。