AI语音技术：从“Voice”到“共情”，重塑人机交互的未来

在过去几年里，人工智能（AI）语音技术领域经历了一场前所未有的爆发。曾经被苹果Siri折戟的语音交互，如今却迎来了新的生机，越来越多的“AI Siri”项目获得了巨额融资。这种现象背后，蕴藏着深刻的技术变革和商业逻辑。本文将深入探讨AI语音技术爆发的原因、面临的挑战以及未来的发展趋势。

AI语音技术爆发的逻辑

过去半年，AI语音领域密集获得融资，尤其引人注目的是大额融资多投向早期团队。例如，Wispr Flow通过“默念输入”完成了3000万美元的A轮融资，累计融资额达到5600万美元；Cartesia在3月份完成了6400万美元的A轮融资，累计融资9100万美元；ElevenLabs更是在1月份宣布完成1.8亿美元的C轮融资，估值超过30亿美元。这些融资案例表明，资本市场对AI语音技术的未来充满信心。

与此同时，Meta、OpenAI、Google等科技巨头以及MiniMax等创业公司都在积极发布自己的语音模型或语音产品。甚至有消息称，Siri也将被ChatGPT或Claude等模型接管，以跟上语音交互的最新进展。这些都预示着AI语音技术正在迎来一个黄金时代。

大模型的加持

声智副总裁黄赟贺认为，语音对话从App中的功能模块迅速进化为AI时代入口级别的存在，这与大模型的加持有极大关系。大模型让声音这项基础能力首次实现了“可编程化”。过去，声音更多的是一种“输入”或“输出”的介质，其内部的复杂结构和信息很难被软件直接“编程”和“理解”。但现在，大模型能够像处理数据一样处理声音，分析声音的频率、振幅、波形，提取情绪特征，识别不同的声源，甚至预测用户的意图。声音不再仅仅是“你说了什么”，更是“你如何说”、“你在哪里说”、“谁在说”以及“你说了之后希望发生什么”。

AI 语音的想象力，已经远在 Siri 之上｜图片来源：网络

从“Voice”到“Sound”的转变

很多人认为，语音交互就是“Voice”（语音），但实际上，真正的语音交互核心不是“Voice”，而是“Sound”（声音）。“Sound”包含了更丰富的元素：语调、音色、节奏、情绪，更重要的是环境音。环境音中可能包含各种非语音信息，如背景音乐、环境噪音、物体发出的声音以及人类语音中包含的非语义信息。AI系统将不再仅仅依赖于识别用户说的“词”，而是能够全面感知和理解用户所处环境的“声学场景”中的所有关键元素。只有当AI能够全面感知并解析“Sound”中包含的多维度信息时，它才能真正理解用户的深层需求，提供更精准、更个性化、更富有情感的交互。

AI语音交互的挑战与卡点

尽管大模型带来了语音交互的巨大飞跃，但语音交互当下依然存在一个核心的“卡点”，即声学。我们常说“听清、听懂、会说”，而“听清”这个最基础的环节却受到物理层面的制约。如果AI听不清用户的指令，即便它能“听懂”再复杂的语义，能“会说”再动听的话语，那也都是空中楼阁。例如，具身智能机器人通常由电驱动，这会带来电路噪声和关节噪声，尤其在室外，很难听清楚人的指令。

当下最先进的具身智能机器人仍然依赖于遥控器来操控｜图片来源：网络

声学技术的瓶颈

要解决“听清”的问题，需要对声学层面进行突破，例如环境噪声的抑制、电路底噪的抑制、啸叫的抑制、混响回响的抑制等。这些都是物理学科的难题，需要大量的数据样本和know-how的积累。这不仅是技术问题，更是时间问题，需要时间去采集声音、做训练。因此，像谷歌、微软、苹果等科技巨头经常会收购声学技术的初创公司，以构建真正的下一代人机交互系统。

AI语音交互的未来：实现“共情”

现在很多AI应用的日活、留存不高，一个很大的原因是普通人本身不会提问，让人向大模型提问，这本身就是一个非常高的交互门槛。而语音带来的一种可能性是，它正在开启一个全新的阶段——人机交互的“共情模式”。

构建“共情模式”的要素

如果把语音交互比作一个“UI界面”，那这个界面会长什么样？其构成要素可能包括：

情绪识别：AI通过分析语调、音量、语速，判断用户的情感状态。
意图理解：不仅听懂用户说了什么，还要明白用户想做什么。
声纹识别：通过独一无二的音声波特征，区分不同用户。
情绪生成：AI的回应需要带有情感化的表达。

这些要素的背后，是AI从“功能导向”到“情感导向”的转变，AI会与人实现共情。这种交互能够显著提升长时间交互的质量和亲密感。

“声学世界模型”的构建

不仅如此，从狭义的“Voice”拓展到广义的“Sound”，当AI能接收到的不仅仅是用户的指令，而是整个物理世界的实时反馈时，我们可以构建一个“声学世界模型”。这个模型可以理解声音在物理世界中产生、传播和交互的根本规律，它不仅要“听清”和“听懂”，更要具备“声学常识”和“声学推理”的能力。例如，它能从一声闷响中分辨出是书本落地还是箱子倒塌，能通过回声判断出房间的大小与空旷程度，更能理解“脚步声由远及近”背后所蕴含的物理运动逻辑。

未来，当这样一个声学世界模型与视觉、语言大模型深度融合时，具身智能机器人将不再“失聪”和冰冷。这将是AI语音技术发展的终极目标。

结论

AI语音技术正在经历一场深刻的变革，从简单的语音识别到复杂的声学场景理解，从“Voice”到“Sound”的转变，AI语音技术正在重塑人机交互的未来。尽管面临声学技术的瓶颈，但随着大模型的不断发展和“声学世界模型”的构建，AI语音技术将实现与人类的“共情”，为我们带来更加智能、个性化和富有情感的交互体验。我们有理由相信，AI语音技术的未来充满无限可能。