ACL是自然语言处理领域影响力最大的国际学术组织近期

近期，自然语言处理（NLP）国际顶级学术会议ACL-IJCNLP2021公布了论文录用结果。百度共有14篇论文被大会收录，内容覆盖跨模态预训练、语言理解、人机对话、机器翻译、知识图谱等多个方向。

文章图片

文章图片
ACL是自然语言处理领域影响力最大的国际学术组织，自创办以来吸引着全世界众多国家和地区的专家学者踊跃参与。据官网数据显示，本届大会共收到3350篇有效论文投稿，主会论文和Findings论文录用率分别为21.3%和14.9% ，含金量极高。百度在多个重要方向论文入选，展现了在自然语言处理领域的领先技术实力。
以下为ACL-IJCNLP2021百度被收录的相关论文介绍：
1、UNIMO：基于跨模态对比学习的统一模态理解与生成方法
UNIMO:TowardsUnified-ModalUnderstandingandGenerationviaCross-ModalContrastiveLearning
近年来，预训练技术在计算机视觉和自然语言处理领域均受到广泛关注。在视觉领域，基于图像数据的单模预训练有效提升了视觉特征的提取能力。在自然语言处理领域，基于自监督的预训练语言模型则利用大规模的单模文本数据，显著提升了模型的语言表示能力。为了处理多模场景的任务，多模预训练模型基于多模图文对数据进行预训练，从而有效支持下游的多模任务。然而，受限于图文对数据量，多模预训练模型通用性欠佳。
基于深度学习的AI系统能否像人一样同时学习各类异构模态数据，包括文本、图像等单模数据，以及图文对等多模数据呢？如果能够实现，无疑将进一步拓展深度学习对大规模数据利用的边界，从而进一步提升AI系统的感知与认知能力以及AI算法的通用性。针对这一问题，本文提出统一模态学习UNIMO ，同时利用大规模单模文本、单模图像以及多模图文对数据进行联合学习，通过跨模态对比学习方法，有效地对语言知识与视觉知识进行统一表示和相互增强，从而具备同时处理多种单模态和多模态下游任务的能力。
UNIMO在语言理解与生成、多模理解与生成等四类场景共十多个任务上超越主流的文本预训练模型和多模预训练模型，首次验证了通过非平行的文本与图像单模数据，能够让语言知识与视觉知识相互增强。UNIMO也同时登顶了视觉问答VQA和文本推理aNLI权威榜单。

文章图片

文章图片
2、ERNIE-Doc：回顾式建模长文本预训练技术
ERNIE-Doc:ARetrospectiveLong-DocumentModelingTransformer
Transformer是预训练模型所依赖的主流网络结构，但由于其计算量和空间消耗随建模长度呈平方级增加，导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的阅读方式启发，本文提出了回顾式建模技术ERNIE-Doc ，突破了Transformer在文本长度上的建模瓶颈，实现了任意长文本的双向建模。
通过将长文本重复输入模型两次， ERNIE-Doc在粗读阶段学习并存储全篇章语义信息，在精读阶段针对每一个文本片段显式地融合全篇章语义信息，从而实现双向建模，避免了上下文碎片化的问题。此外，传统长文本模型（Transformer-XL等）中RecurrenceMemory结构的循环方式限制了模型的有效建模长度。ERNIE-Doc将其改进为同层循环，使模型保留了更上层的语义信息，具备了超长文本的建模能力。最后，通过让模型学习篇章级文本段落间的顺序关系， ERNIE-Doc更好地了建模篇章整体信息。
ERNIE-Doc显著提升了长文本的建模能力，在包括阅读理解、信息抽取、篇章分类、语言模型等不同类型的13个权威中英文长文本任务上取得了SOTA效果。