字节跳动音乐检索系统bytecover2入选( 三 )


S3T使用了大规模音乐预训练配合少量标签数据微调的范式 , 充分利用大量无标签的音乐数据 , 通过挖掘时域和频域的信息 , 学习具有较强泛化性的通用音乐表征 。S3T在多个下游任务上均取得很好效果 , 特别是仅使用10%的标签数据进行微调效果便能超过使用以往全量标签数据训练的模型 , 大幅降低了人工数据标注的成本 。
字节跳动音乐检索系统bytecover2入选
文章图片

文章图片

▲S3T模型结构与训练流程
音乐自监督学习无需大量人工标签便可利用大量音乐数据充分挖掘其自身的表征 , 且拥有较强的通用性 。本文提出的音乐表征自监督学习 , 为音乐理解构筑了基础 。
S3T目前已经应用在音乐标签、音乐指纹等场景 , 微调后的S3T可以为音乐打上风格、语种、情绪等标签 , 可靠的音乐标签可以进一步服务音乐推荐系统 , 使其精准地向来自不同地区的用户推送合适的音乐 。
三、音频合成:实现数字人个性化穿搭和场景自由
在音频合成方向 , 字节跳动火山语音团队基于服装风格迁移实现场景感知下的人物视频生成论文被ICASSP2022收录 。
该方向致力于解决视频中人物个性化穿搭和背景场景自由的选择问题 , 设计了多个解耦encoder学习人物不同的属性(身份、衣服和姿态) , 通过共享decoder融合多层面信息 。
不同于图片任务 , 视频需要学习帧之间的变化 , 所以团队设计了帧间判别器(Inner-frameDiscriminator)来大幅提升稳定性 。具体来说 , 在模型生成的结果上应用掩码 , 人物可切换到任意场景上 。
工作在公开数据集TEDXPeople , 相对baseline系统(CVPR2021)视频中衣服个性化的多项客观指标均有显著改善 , 可以达到SOTA效果:SSIM+0.047 , PSNR+4.6 , FID(越小越好)-0.4,FVD(越小越好)-0.543 。
字节跳动音乐检索系统bytecover2入选
文章图片

文章图片

▲场景感知的服装风格迁移模型框架
在数字人多模态生成的场景和业务中 , 数字人主播衣服的个性化穿搭和场景自由的选择 , 为用户提供了自主可控的个性化能力 , 可大幅增加数字人生态的多样性 。
四、音频理解:提升语音识别定制化性能 , 优化数据标注质量
在音频理解方向 , 字节跳动火山语音团队基于细粒度语境知识选择的端到端(语境)语音识别提升方法、非自回归Transformer自动语音识别的最小词误差训练、使用梯度掩码改进端到端语音识别的伪标签训练论文被ICASSP2022收录 。
此外 , 面向会议场景 , 火山语音团队在ICASSP2022多方会议转录挑战赛(M2MeT)的两个限定训练数据子赛道上分获第二名和第四名 。
1、基于细粒度语境知识选择的端到端(语境)语音识别提升方法
该工作在一种被称为协同解码(CollaborativeDecoding , ColDec)的语音识别定制化/个性化方法的基础上 , 提出了细粒度语境知识选择机制(Fine-grainedContextualKnowledgeSelection) , 来进一步增强该方法在大热词列表和较多干扰热词情境下的语音识别定制化性能 。在先前工作中 , 一种被称为协同解码(CollaborativeDecoding)的语音识别定制化技术有效地提升了定制化识别性能 。
本文针对其在大热词列表和较多干扰热词情境下的性能衰减问题 , 提出了细粒度语境知识选择机制 , 进一步增强了协同解码技术在定制化场景下的能力 。
在公开数据集Librispeech上 , 本文方法在基础CIF语音识别模型的test-clean2.12%的WER基础上 , 进一步为WER带来了约5%的相对下降;在内部16w小时工业级ASR数据集训练的语音识别模型的基础上 , 该方法在真实会议测试集上为CER带来了最高约16%的相对下降 。