网易 AI Lab 斩获全球顶级声纹识别竞赛冠军 _冠军

近日，全球最大的语音大会INTERSPEECH2020公布了SdSV声纹识别大赛的结果。网易AILab在众多国际顶级团队中脱颖而出，在文本相关声纹识别赛道综合排名中获得第一名，单模式第一名。凸显了网易AILab在语音声纹识别技术领域的领先地位。

本次国际声纹识别大赛是行业内非常权威的比赛。参赛队伍来自众多国际知名高校和企业，包括近两年来世界上各种声纹识别大赛的“常胜将军”:布尔诺理工大学、新加坡传播学院、约翰霍普金斯大学等。

在比赛中，网易AILab创新性地提出了一种基于通用X-Vector和PLDA算法的无ASR文本相关声纹识别算法。与传统的深度说话人嵌入方法相比，该算法不依赖语音识别，能够在多语言环境下同时验证说话人和文本内容。

采用MinDCF(最小检测成本)和EER(等错误率)作为评价指标。网易AILab的单一模型在这两项指标上都是最好的，其中EER达到1.67%，比第二名低11.6%，远低于游戏X-Vector基线系统(EER=9.05%) 。

在评价算法系统性能时，经常输出ROC曲线来描述FAR(误识别率)和FRR(误识别率)之间的关系。

简单来说，在声纹识别中，误识别率是“取不应匹配的声纹作为匹配声纹”的比例，拒识率是“取应匹配的声纹作为不匹配声纹”的比例。

在安全性要求非常高的应用场景中，FAR值会设置得更低，因为误判的代价非常高，但这样做会导致FRR值增加，用户体验下降。

等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率，即ROC曲线与直线相交45度的点，是衡量声纹识别算法系统综合性能的重要指标。EER值越小，系统性能越好。

声纹识别是一种生物特征识别技术，也称为说话人识别，是一种通过声音识别说话人的技术。

目前，人工智能主要有三个研究方向：视觉识别、智能语音和NLP自然语言处理。其中，在语音识别领域，声纹识别属于相对蓝海市场，主要解决“我就是我”的身份认证问题，多用于安全验证场景。

从近年来的市场趋势来看，银行、金融服务和保险已经成为声纹识别应用的主导领域。

随着技术的不断成熟和融合，声纹识别技术将逐步融入日常生活，根据不同应用场景的特点进行针对性开发将具有很大的应用价值。

【网易 AI Lab 斩获全球顶级声纹识别竞赛冠军】 网易AILab声纹识别技术已经应用于游戏场景。除了游戏身份验证，还可以根据音色对用户进行分类，丰富玩家的画像，从而更精准地为玩家推荐志同道合的朋友，匹配实力相当的对手，为玩家带来更好的游戏体验。

网易 AI Lab 斩获全球顶级声纹识别竞赛冠军