科大讯飞：多模态语音交互技术在汽车领域的最新进展

由IEEE信号处理学会主办的ICASSP 2022(International Conference on Acoustics, Speech and Signal Processing)线上会议于5月7-13日举行，这是全世界规模最大、最全面的信号处理及其应用方面的顶级会议，在语音技术领域享有国际性的学术影响力。

科大讯飞AI研究院副院长高建清博士在会议的工业专家论坛发表了题为《Multi-modalspeech interaction system applied in vehicle》的主题报告，介绍科大讯飞在多模态语音交互技术方面的最新进展以及在汽车领域的最新应用。参加论坛的还有来自Amazon、IBM、Meta等工业界知名专家。

机器和人之间的自然交互，需要解决“谁在对我说”、“说的什么内容”和“所处的环境”等诸多问题。传统的人机交互系统只使用语音单模态信息很难解决上述难题，视听觉融合的多模态感知技术为这些问题的处理提供了可能的突破口，进而推动并实现更自然的语音交互。

在汽车人机交互场景中，人机交互系统需要攻克两大难题：一是环境噪音及人声干扰，尤其是麦克风阵列技术难以解决的同向人声干扰问题(例如：驾驶员与左后方乘客同时说话);二是传统语音交互系统每次启动交互都需要说唤醒词(例如：你好，小飞)，难以做到像人与人交流一样自然顺畅。

科大讯飞凭借在语音与视觉方面的多年积累，打造了一套语音、视觉多模态融合的免唤醒多模态交互系统。通过将麦克风提供的空间信息和音视频提供的说话人相关信息进行融合绑定，实现高准确度的说话人分离;通过多模态VAD与端到端意图技术的结合，实现无需唤醒、一语直达，具有可靠、自然、鲁棒的技术特点。

多模交互、主动交互、情感化交互将成车载交互的大势所趋，车内语音交互与其他模态的深度融合，将为用户提供更加自然、形象化、有温度的人机交互体验，例如通过语音与视觉交互的融合，车辆可以识别出用户不同情绪变化，并采取相应的沟通。同时，通过结合多模认证，可以减少交互的安全隐患。此外，语音技术和车机协议、车内生态正在逐渐打通，通过车内外生态的联动，可以扩大交互使用场景，全方位满足用户的使用需求。

针对汽车智能化进程中所面临的人车交互不够贴近真人对话场景的痛点，科大讯飞智能汽车运用多模态技术，创造性地提出了三大解决方向：更快——系统可以迅速识别用户发出的多个连续指令;更准——支持语气词、长文本识别过滤;更有温度——设立多个风格的发言人，采用拟人发音和多情感表达。多模态技术在车载领域的深度融合运用，将有助于人车交互更接近于真人交流。

当前，科大讯飞多模态交互解决方案已经与上汽、广汽、威马、沃尔沃、比亚迪、长安、奇瑞等车企达成合作，随着多模态技术在汽车行业的逐步落地，将带给用户更自然的语音交互体验。

后续，科大讯飞将持续探索多模融合的技术创新和应用场景，推进包括多模认证、多模画像、多模情绪、多模安全在内的多个方向的技术改进与应用落地。在技术层面，科大讯飞将继续研究自监督训练方法，探索多模态之间相互促进的潜力，拓展多模态场景识别、多模态情感识别等技术方向。在应用层面，将从以智能汽车、智能家电为代表的封闭场景拓展到以服务机器人为代表的开放场景，提供可靠性高、覆盖面广的多模感知技术及交互解决方案，持续为消费者提供更加可靠、人性化的使用体验。

在此前公布的ICASSP 2022论文入选名单中，科大讯飞共有10篇论文被会议接收，论文方向涵盖语音识别、语音合成、说话人识别、语音增强、情感识别等，充分体现了科大讯飞在智能语音领域全面的技术实力。

未来，科大讯飞将在汽车领域持续深耕，推进核心技术的优化迭代与产业应用，为车域生态合作伙伴提供更具有生命力和创新力的智能化场景服务，为用户打造更安全、更智能、更有趣的未来移动空间。