AI语音交互新纪元:从“听清”到“共情”的技术跃迁之路

0

在人工智能领域,语音技术正经历着一场前所未有的变革。曾经被苹果Siri折戟的语音助手,如今正以“AI Siri”的新面貌重获资本青睐,越来越多的初创公司获得了融资。

过去半年,AI语音领域融资消息不断,金额巨大,且多为早期项目。例如,Wispr Flow的“默念输入”技术获得了3000万美元A轮融资,累计融资额高达5600万美元;Cartesia在3月完成了6400万美元的A轮融资,累计9100万美元;ElevenLabs在1月宣布完成1.8亿美元C轮融资,估值超过30亿美元。科技巨头如Meta、OpenAI、Google以及创业公司MiniMax都在积极发布语音模型或产品。Siri也传闻将被ChatGPT或Claude等模型接管,以提升语音交互能力。

这些都预示着AI语音技术的蓬勃发展。那么,AI语音领域为何会在过去半年内集中爆发?

声智副总裁黄赟贺认为,语音对话已从App的功能模块演变为AI时代的入口,这与大模型的赋能密不可分。声智作为幕后AI声学技术提供商,曾为小爱同学、天猫精灵、小度音箱等知名智能音箱品牌提供远场声学交互技术。如今,声智也积极开发C端产品,其AI耳机出货量已接近100万套。这表明,他们看到了“大模型+语音”浪潮中的巨大商业机遇。

AI语音爆发的逻辑

AI语音初创团队获得大额融资,与大模型技术密不可分,大模型让声音具备了“可编程化”的能力。

AI语音的想象力,已经远在Siri之上

“可编程化”意味着通过清晰的接口和逻辑,使能力或对象能够被代码自由调用、组合、修改和控制。过去,文字、图像和视频都已实现可编程化,但声音作为一种“输入”或“输出”介质,其内部的复杂结构和信息难以被软件直接编程和理解。

传统的语音识别主要将声音转换为文字,然后进行处理。例如,过去需要大量人工团队对语音进行标注,将语音转换为文字,并标注特征和意向标签。而现在,大模型可以更快、更准确地完成这项工作。

过去,自然语言处理(NLP)依赖大量运营人员进行标注,以使AI系统识别句子的意向。语音开发每增加一个功能都需要从头编写代码,费时费力。例如,要让智能音箱支持“点外卖”功能,需要单独开发一套语音识别和语义逻辑,成本高且周期长。

现在,AI大模型可以解决这些问题。

更重要的是,借助大模型对多模态数据的深度理解能力以及对声学信号的细致解析,AI系统可以直接捕捉、理解和编程声音携带的更多信息,而不仅仅是文字信息。

这种可编程化意味着AI可以像处理数据一样处理声音,分析声音的频率、振幅、波形,提取情绪特征,识别不同的声源和声源距离,甚至预测用户的意图。

因此,声音包含的不再仅仅是“你说了什么”,还包括“你如何说”、“你在哪里说”、“谁在说”以及“你说了之后希望发生什么”。声音由此成为真正的交互引擎。

从“Voice”到“Sound”:语音交互的真正内涵

很多人认为语音交互就是“Voice”(语音),但实际上,“Voice”只是一个狭窄的概念。真正的语音交互核心是“Sound”(声音),它包含了“Voice”。

具体来说,“Sound”包含更丰富的元素:语调、音色、节奏、情绪以及环境音。环境音中可能包含各种非语音信息,如背景音乐、环境噪音(风声、雨声、车声)、物体发出的声音(开门声、打字声)以及人类语音中包含的非语义信息(语调、语速、音色、语气词、叹息声、笑声、哭声等)。

例如,当用户咳嗽时与AI对话,AI可能会识别出咳嗽并建议多喝水;在咖啡馆中说“帮我找个安静的地方”,AI不仅要理解指令,还要从背景音中判断当前环境嘈杂,从而推荐附近的图书馆。

下一代对话交互的入口并非“Voice”,而是“Sound”。这意味着AI系统不再仅仅依赖于识别用户说的“词”,而是能够全面感知和理解用户所处环境的“声学场景”中的所有关键元素。

只有当AI能够全面感知并解析“Sound”中包含的多维度信息时,才能真正理解用户的深层需求,提供更精准、更个性化和更富有情感的交互。这才是真正的“语音交互”,它不仅仅是“听懂”字面意思,更是“听懂”用户的“言外之意”和“心声”。

语音交互的挑战:声学技术的瓶颈

尽管大模型带来了语音交互的巨大飞跃,但语音交互仍然面临一个核心的挑战,即声学问题。

我们常说“听清、听懂、会说”。“听懂”和“会说”的能力正被大模型以前所未有的速度提升,但“听清”这个最基础的环节却受到物理层面的制约。如果AI听不清用户的指令,即便它能“听懂”再复杂的语义,能“会说”再动听的话语,也无济于事。

例如,当下热门的具身智能机器人面临电路噪声和关节噪声等问题,金属材质也会导致声音穿透时大幅衰减。因此,机器人运动时噪声很大,尤其是在室外,难以听清楚人的指令。解决这个问题需要对声学层面进行突破,例如抑制环境噪声、电路底噪、啸叫和混响回响等。

这些声学问题是物理学科的挑战,需要数据样本和技术积累,需要时间采集声音并进行训练,不是烧钱就能解决的。

让AI准确地“听清”用户的指令仍然是一个世界级的难题。由于声学相关人才稀缺,谷歌、微软和苹果等公司经常收购声学技术的初创公司。

构建真正的下一代人机交互系统,需要以核心的声学能力为基石。

语音交互的未来:实现“共情”

当前,许多AI应用的日活和留存率不高,一个重要原因是普通人本身不擅长提问,让人向大模型提问本身就是一个很高的交互门槛。好的提问需要学识和表达能力等基础,因此停留在文字层面的问答存在局限性。

而语音带来了一种可能性,即开启人机交互的“共情模式”。

如果将语音交互比作一个“UI界面”,那么这个界面可能包含以下要素:

  • 情绪识别:AI通过分析语调、音量和语速来判断用户的情感状态。例如,如果用户的声音颤抖,AI可能会推测用户感到紧张或伤心。
  • 意图理解:AI不仅要听懂用户说了什么,还要明白用户想做什么。例如,如果用户说“播放音乐”,AI会根据用户的情绪决定播放摇滚还是古典音乐。
  • 声纹识别:通过独特的音声波特征区分不同用户。例如,家里的智能音箱可以自动切换到“孩子模式”,只为孩子的声音提供安全的回应。
  • 情绪生成:AI的回应需要带有情感化的表达。例如,用温暖的语气说“别担心,我来帮你解决”,而不是机械地回复“好的,正在处理”。

这些要素的背后是AI从“功能导向”到“情感导向”的转变,AI将与人实现共情。这种交互能够显著提升长时间交互的质量和亲密感。

此外,从狭义的“Voice”拓展到广义的“Sound”,当AI能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以构建一个“声学世界模型”。

这个“声学世界模型”可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要“听清”和“听懂”,还要具备“声学常识”和“声学推理”的能力:能够从一声闷响中分辨出是书本落地还是箱子倒塌;能够通过回声判断出房间的大小与空旷程度;能够理解“脚步声由远及近”背后所蕴含的物理运动逻辑。

未来,当这样的声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再“失聪”和冰冷。这也是我们正在努力实现的目标。