下一代车载语音，为什么要实现音视觉融合？在过去的四十年内

在过去的四十年内，几乎每十年人机交互方式就会有一次重大革新。继鼠标键盘和触屏交互之后，下一代交互方式是什么？我们暂不得知。但汽车座舱作为未来物联网领域中的重要?色，它的应用场景会给下一代人机交互方式的变革带来一些启发。传统的汽车座舱交互方式比较单一，除了按键、拨杆、旋钮之外，有的还沿用了触屏交互。随着座舱越来越智能，更多车辆搭载拥有丰富功能的车机系统和不同级别的驾驶辅助，这也就造成座舱内信息大爆炸。面对海量的信息，按键或触屏只会让用户手忙脚乱，进退两难，座舱也无法反向深入了解用户的真实意图。因此传统的交互方式显然不再适用，智能座舱的交互方式亟需变革。以目前的产品水平来说，尽管 L2 驾驶辅助功能正以极快的速度铺开，但短期内用户在车内的主要任务还是驾驶，人的肢体和注意力是被占用的。虽然手能够触屏，但手必须要握住方向盘；虽然可以根据眼神实现视线追踪，但目光还是要聚焦在前方路况。所以车厂开发者能利用的交互资源，是这些器官富裕出来的人的能力。在眼睛、手臂、嘴巴、大脑、腿脚等肢体当中，嘴能实现的语音交互是相对好的选择。
【下一代车载语音，为什么要实现音视觉融合？】

文章图片

文章图片
仅依靠车载语音肯定描绘不出下一代交互方式的样子，所以以语音为中心的「多模态交互」是更明确的未来方向，比如配合按键、触屏、手势识别、人脸识别、情绪识别等等。

文章图片

文章图片
另外，用户的更多需求其实是在言语之外的，没有人会时刻把命令挂在嘴边，这不现实，也不够优雅，毕竟座舱是个半公共空间。所以大多数情况下，用户痛点仍然存在，可能是这个需求说不出来，也可能是还能忍。这种情况下，座舱需要有察言观色的能力，时刻思考用户需求，以便「主动」提供服务。如果这种细微的服务能做好，体验会有大幅提升，用户粘性会非常高。

文章图片

文章图片
刚我们提到的手势识别、人脸识别、情绪识别，以及座舱察言观色的能力，都需要座舱内有眼睛，这是主动交互和所有视觉相关功能的大前提。因此，以「语音」为中心的多模态交互，和以「视觉」为中心的主动式交互是未来的两个重要方向。前者的指令准确但被动；后者的指令模糊但主动。理论上涵盖了大部分服务需求。目前来看，已经有不少座舱分别实现了车载语音和视觉的相关功能。以语音为例，我粗略划分为五个阶段。第一阶段可以完成语音的基础能力，能跑通前端降噪-语音触发-识别-理解-反馈的完整技术链；第二阶段语音可以结合车机系统和更多生态，比如与音乐、导航、操作系统、?窗、智能家居等相结合；第三阶段可以完成相对灵活的自然语言理解，实现免唤醒、自动纠错、多轮对话、上下文理解等能力；第四阶段可以理解更复杂的自然语言，实现声源定位、多路拾音的全?语音交互，并理解多条件叠加说法、间接意图说法、间接话术等复杂的自然语言；第五阶段是形成独特的沟通性格，用语言和服务向用户传递品牌理念。