下一代车载语音,为什么要实现音视觉融合?( 二 )
文章图片
文章图片
目前不同属性的车厂已经站在了不同的阶段 。
文章图片
文章图片
以蔚来汽车、理想汽车、小鹏汽车为代表的新势力品牌基本都达到了第三阶段 , 它们虽然仍然借力供应商 , 但自研的比例越来越高 , 有的已经建立了独立的语音框架 , 有的已经能够通过语音表达品牌个性和态度 。蔚来汽?目前已经将语音与驾驶辅助相结合 , 可以随时告知用户汽?的下一个决策 , 来降低用户对新鲜功能的不信任感 , 而且在 NOMI 的加持下 , 语音可以被抽象为情感表达 , 反向成就品牌本身 。小鹏汽?自己搭建了语音框架 , 可以更灵活的定制新功能 , 不受制于供应商的开放能力 。另外 SR 自动驾驶环境模拟显示能通过语音+视觉的方式 , 让用户明确自己何时接管车辆 。
文章图片
文章图片
理想汽车实现了?载多音区交互 。它采用四麦克风分布式阵列 , 可以实现 4 路人声分离和 6 路音区检测 , 完成全?多路拾音、人声定位、降噪、回声消除和语音唤醒 。简单来说 , 它可以准确判断?内多个说话人的空间位置 , 更突出了理想 ONE 家庭座舱的定位 。以长城汽车、吉利汽车、上汽为代表的我国自主品牌在体验上基本能达到第三阶段 , 但与新势力的实现路径不太一样 , 他们更多依靠国内领先的语音供应商 , 或投资成立为自己服务的数字化外部公司 。上汽荣威 RX5 PLUS 的车载语音由斑马网络提供 , 具体来说达摩院提供前端算法/唤醒;思必驰提供语音识别能力;科大讯?提供 TTS 音色 。这款车拥有一套支持 90s 连续交互的全双工语音系统 , 体验并不输给新势力品牌车型 。以奥迪、奔驰、宝马、凯迪拉克为代表的传统豪华品牌仍然停留在第一二阶段 , 大多依靠合作已久的老牌供应商 , 同时加入一些国内语音供应商的相关能力 。2020 款奥迪 A4L 的语音系统由大众问问提供 , 同时搭载了纽昂斯和天猫精灵的相关能力 。整体体验比其他豪华品牌要好 , 但远算不上第一梯队 。纽昂斯和大众问问分别为这款车提供了一套 ASR 和 NLU 能力 , 两者算是并行关系 , 所以用户输入任何一个指令 , 这俩通道都要跑一遍 , 最后统一口径实行指令 , 所以整体体验比较慢 。
文章图片
文章图片
说完车载语音 , 车内与视觉相关的功能其实落地的并不多 。小鹏 G3 曾在 Xmart OS 1.5 版本中推出疲劳监测并预警的功能 , 原理是通过?内摄像头实时检测驾驶员在行?过程中的疲劳特征(如打呵欠、?时间闭眼) , 并及时通过生效和抖动作出预警 。爱驰 U5 也有类似的功能 , 摄像头安装于 A 柱 , 当驾驶员打电话、打哈欠或者视线不在前方时 , 系统就会语音警示 。
文章图片
文章图片
宝马的手势识别在 2015 年率先登陆宝马 7 系 , 可以通过摄像头识别完成音量调节、切歌等指令 。识别率很高 , 但其实用性褒贬不一 。长安 UNI-T 的功能相对丰富 , 可以实现视线亮屏、分级疲劳检测、多模唇语识别、驾驶员行为识别、智能情绪识别等功能 。这一系列细分场景下的主动式 AI 功能由地平线提供 , 同时它还提供了?规级 AI 芯片「征程 2」 。综上 , 不难看出确实已经有不少产品实现了车载语音和视觉的相关功能 , 但体验参差不齐 , 相差悬殊 , 最重要的是语音和视觉没有从根本上融合 , 仍然是两条没有交叉环绕的并行线 , 还是单打独斗的状态 。真正的音视觉融合可以通过多方位的感知 , 为用户提供形式更丰富的服务反馈 。具体来说 , 车辆可以通过语音、视觉和相关车辆数据 , 感知当前的驾驶员/乘客状态以及具体场景 , 形成可预知的需求 , 再通过汽车的相关能力 , 主动为用户提供有价值的服务和信息 。
- 和平精英|和平精英小团团语音包设置方法攻略一览
- 数字经济时代,下一代互联网路在何方?
- 和平精英小团团语音包怎么获得(小团团语音包获取方法介绍)
- 高德地图可莉语音导航怎么弄(高德地图可莉语音导航设置教程)
- 2022和平精英语音包在哪里设置(2022和平精英语音包更改流程)
- 微信重大更新!删除好友、语音暂停……这些功能终于来了
- 永劫无间小队怎么设置语音交流(永劫无间小队语音交流开启方法说明)
- 原神高德地图可莉语音包怎么领(原神高德地图可莉语音包设置教程)
- 原神|原神×高德地图可莉语音包上线(“锵锵 可莉登场”)
- 原神可莉语音台词|原神可莉语音台词大全(高德地图原神可莉语音包送兑换码)
