下一代车载语音,为什么要实现音视觉融合?

在过去的四十年内 , 几乎每十年人机交互方式就会有一次重大革新 。继鼠标键盘和触屏交互之后 , 下一代交互方式是什么?我们暂不得知 。但汽车座舱作为未来物联网领域中的重要?色 , 它的应用场景会给下一代人机交互方式的变革带来一些启发 。传统的汽车座舱交互方式比较单一 , 除了按键、拨杆、旋钮之外 , 有的还沿用了触屏交互 。随着座舱越来越智能 , 更多车辆搭载拥有丰富功能的车机系统和不同级别的驾驶辅助 , 这也就造成座舱内信息大爆炸 。面对海量的信息 , 按键或触屏只会让用户手忙脚乱 , 进退两难 , 座舱也无法反向深入了解用户的真实意图 。因此传统的交互方式显然不再适用 , 智能座舱的交互方式亟需变革 。以目前的产品水平来说 , 尽管 L2 驾驶辅助功能正以极快的速度铺开 , 但短期内用户在车内的主要任务还是驾驶 , 人的肢体和注意力是被占用的 。虽然手能够触屏 , 但手必须要握住方向盘;虽然可以根据眼神实现视线追踪 , 但目光还是要聚焦在前方路况 。所以车厂开发者能利用的交互资源 , 是这些器官富裕出来的人的能力 。在眼睛、手臂、嘴巴、大脑、腿脚等肢体当中 , 嘴能实现的语音交互是相对好的选择 。
【下一代车载语音,为什么要实现音视觉融合?】
下一代车载语音,为什么要实现音视觉融合?
文章图片

文章图片
仅依靠车载语音肯定描绘不出下一代交互方式的样子 , 所以以语音为中心的「多模态交互」是更明确的未来方向 , 比如配合按键、触屏、手势识别、人脸识别、情绪识别等等 。
下一代车载语音,为什么要实现音视觉融合?
文章图片

文章图片
另外 , 用户的更多需求其实是在言语之外的 , 没有人会时刻把命令挂在嘴边 , 这不现实 , 也不够优雅 , 毕竟座舱是个半公共空间 。所以大多数情况下 , 用户痛点仍然存在 , 可能是这个需求说不出来 , 也可能是还能忍 。这种情况下 , 座舱需要有察言观色的能力 , 时刻思考用户需求 , 以便「主动」提供服务 。如果这种细微的服务能做好 , 体验会有大幅提升 , 用户粘性会非常高 。
下一代车载语音,为什么要实现音视觉融合?
文章图片

文章图片
刚我们提到的手势识别、人脸识别、情绪识别 , 以及座舱察言观色的能力 , 都需要座舱内有眼睛 , 这是主动交互和所有视觉相关功能的大前提 。因此 , 以「语音」为中心的多模态交互 , 和以「视觉」为中心的主动式交互是未来的两个重要方向 。前者的指令准确但被动;后者的指令模糊但主动 。理论上涵盖了大部分服务需求 。目前来看 , 已经有不少座舱分别实现了车载语音和视觉的相关功能 。以语音为例 , 我粗略划分为五个阶段 。第一阶段可以完成语音的基础能力 , 能跑通前端降噪-语音触发-识别-理解-反馈的完整技术链;第二阶段语音可以结合车机系统和更多生态 , 比如与音乐、导航、操作系统、?窗、智能家居等相结合;第三阶段可以完成相对灵活的自然语言理解 , 实现免唤醒、自动纠错、多轮对话、上下文理解等能力;第四阶段可以理解更复杂的自然语言 , 实现声源定位、多路拾音的全?语音交互 , 并理解多条件叠加说法、间接意图说法、间接话术等复杂的自然语言;第五阶段是形成独特的沟通性格 , 用语言和服务向用户传递品牌理念 。
下一代车载语音,为什么要实现音视觉融合?