在过去几年里,人工智能(AI)语音技术领域经历了一场前所未有的爆发。曾经被苹果Siri折戟的语音交互,如今却迎来了新的生机,越来越多的“AI Siri”项目获得了巨额融资。这种现象背后,蕴藏着深刻的技术变革和商业逻辑。本文将深入探讨AI语音技术爆发的原因、面临的挑战以及未来的发展趋势。
AI语音技术爆发的逻辑
过去半年,AI语音领域密集获得融资,尤其引人注目的是大额融资多投向早期团队。例如,Wispr Flow通过“默念输入”完成了3000万美元的A轮融资,累计融资额达到5600万美元;Cartesia在3月份完成了6400万美元的A轮融资,累计融资9100万美元;ElevenLabs更是在1月份宣布完成1.8亿美元的C轮融资,估值超过30亿美元。这些融资案例表明,资本市场对AI语音技术的未来充满信心。
与此同时,Meta、OpenAI、Google等科技巨头以及MiniMax等创业公司都在积极发布自己的语音模型或语音产品。甚至有消息称,Siri也将被ChatGPT或Claude等模型接管,以跟上语音交互的最新进展。这些都预示着AI语音技术正在迎来一个黄金时代。
大模型的加持
声智副总裁黄赟贺认为,语音对话从App中的功能模块迅速进化为AI时代入口级别的存在,这与大模型的加持有极大关系。大模型让声音这项基础能力首次实现了“可编程化”。过去,声音更多的是一种“输入”或“输出”的介质,其内部的复杂结构和信息很难被软件直接“编程”和“理解”。但现在,大模型能够像处理数据一样处理声音,分析声音的频率、振幅、波形,提取情绪特征,识别不同的声源,甚至预测用户的意图。声音不再仅仅是“你说了什么”,更是“你如何说”、“你在哪里说”、“谁在说”以及“你说了之后希望发生什么”。
从“Voice”到“Sound”的转变
很多人认为,语音交互就是“Voice”(语音),但实际上,真正的语音交互核心不是“Voice”,而是“Sound”(声音)。“Sound”包含了更丰富的元素:语调、音色、节奏、情绪,更重要的是环境音。环境音中可能包含各种非语音信息,如背景音乐、环境噪音、物体发出的声音以及人类语音中包含的非语义信息。AI系统将不再仅仅依赖于识别用户说的“词”,而是能够全面感知和理解用户所处环境的“声学场景”中的所有关键元素。只有当AI能够全面感知并解析“Sound”中包含的多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。
AI语音交互的挑战与卡点
尽管大模型带来了语音交互的巨大飞跃,但语音交互当下依然存在一个核心的“卡点”,即声学。我们常说“听清、听懂、会说”,而“听清”这个最基础的环节却受到物理层面的制约。如果AI听不清用户的指令,即便它能“听懂”再复杂的语义,能“会说”再动听的话语,那也都是空中楼阁。例如,具身智能机器人通常由电驱动,这会带来电路噪声和关节噪声,尤其在室外,很难听清楚人的指令。
声学技术的瓶颈
要解决“听清”的问题,需要对声学层面进行突破,例如环境噪声的抑制、电路底噪的抑制、啸叫的抑制、混响回响的抑制等。这些都是物理学科的难题,需要大量的数据样本和know-how的积累。这不仅是技术问题,更是时间问题,需要时间去采集声音、做训练。因此,像谷歌、微软、苹果等科技巨头经常会收购声学技术的初创公司,以构建真正的下一代人机交互系统。
AI语音交互的未来:实现“共情”
现在很多AI应用的日活、留存不高,一个很大的原因是普通人本身不会提问,让人向大模型提问,这本身就是一个非常高的交互门槛。而语音带来的一种可能性是,它正在开启一个全新的阶段——人机交互的“共情模式”。
构建“共情模式”的要素
如果把语音交互比作一个“UI界面”,那这个界面会长什么样?其构成要素可能包括:
- 情绪识别:AI通过分析语调、音量、语速,判断用户的情感状态。
- 意图理解:不仅听懂用户说了什么,还要明白用户想做什么。
- 声纹识别:通过独一无二的音声波特征,区分不同用户。
- 情绪生成:AI的回应需要带有情感化的表达。
这些要素的背后,是AI从“功能导向”到“情感导向”的转变,AI会与人实现共情。这种交互能够显著提升长时间交互的质量和亲密感。
“声学世界模型”的构建
不仅如此,从狭义的“Voice”拓展到广义的“Sound”,当AI能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以构建一个“声学世界模型”。这个模型可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要“听清”和“听懂”,更要具备“声学常识”和“声学推理”的能力。例如,它能从一声闷响中分辨出是书本落地还是箱子倒塌,能通过回声判断出房间的大小与空旷程度,更能理解“脚步声由远及近”背后所蕴含的物理运动逻辑。
未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再“失聪”和冰冷。这将是AI语音技术发展的终极目标。
结论
AI语音技术正在经历一场深刻的变革,从简单的语音识别到复杂的声学场景理解,从“Voice”到“Sound”的转变,AI语音技术正在重塑人机交互的未来。尽管面临声学技术的瓶颈,但随着大模型的不断发展和“声学世界模型”的构建,AI语音技术将实现与人类的“共情”,为我们带来更加智能、个性化和富有情感的交互体验。我们有理由相信,AI语音技术的未来充满无限可能。