日志错误率4.05%,这两家合作的AI音频研究成果获ICASSP认可

本文转自:文汇客户端
日志错误率4.05%,这两家合作的AI音频研究成果获ICASSP认可
文章图片

文章图片

近日 , 国际音频、语音与信号处理会议ICASSP (International Conference on Acoustics, Speech, and Signal Processing)2022 多通道多方会议转录挑战赛M2MeT(Multi-channel Multi-party Meeting Transcription Challenge)落下帷幕 , 喜马拉雅智能语音实验室和中国科学技术大学合作 , 在说话人日志赛道获得第三名 。同时 , 相关论文被ICASSP 2022收录 , 并受邀于今年5月在新加坡举办的线上/线下会议中展示 。
ICASSP由IEEE(电气电子工程师学会)主办 , 在国际上享有盛誉并具有广泛的学术影响力 , 今年的会议主题为“以人为本的信号处理” 。M2MeT挑战赛是ICASSP2022信号处理大挑战(Grand Challenge)之一 , 包括说话人日志和多说话人语音识别两个赛道 。喜马拉雅和中国科学技术大学合作在说话人日志赛道取得了4.05%的日志错误率(DER) , 名列第三位 。第一、第二名分别由昆山杜克大学的李明教授团队(2.98%)和腾讯-香港中文大学团队(3.98%)获得 。
说话人日志技术 , 主要解决“谁在什么时候说话”的问题 。为了提高日志准确率 , 喜马拉雅和中国科学技术大学合作研发的系统 , 在语音的预处理上 , 首先使用麦克阵列技术对信号降噪、降混响 , 使得信号相对纯净 , 之后使用基于深度学习的声纹模型和谱聚类方法 , 将多人远场数据进行初步处理 , 并使用多通道标签融合技术对不同通道的结果进行融合 , 以提升准确率 , 成功将DER降到4.05% , 基本达到实用要求 。未来 , 技术团队还将不断创新突破 , 进一步打开对声音的想象 , 让技术加持声音、让声音服务生活 。
作者:付鑫鑫
编辑:赵征南
【日志错误率4.05%,这两家合作的AI音频研究成果获ICASSP认可】责任编辑:范兵