在人工智能领域,语音技术正经历着前所未有的变革。曾经被寄予厚望的苹果Siri遭遇发展瓶颈,但与此同时,涌现出越来越多的“AI Siri”们,它们以前所未有的速度获得资本市场的青睐。
过去半年,AI语音赛道融资消息不断,尤为引人注目的是,这些融资的金额巨大,且投资对象多为初创团队。例如,AI语音应用Wispr Flow凭借“默念输入”完成了3000万美元的A轮融资,累计融资额高达5600万美元。语音模型公司Cartesia在3月份完成了6400万美元的A轮融资,累计融资9100万美元。而AI语音合成公司ElevenLabs更是在1月份宣布完成1.8亿美元的C轮融资,估值超过30亿美元。
科技巨头如Meta、OpenAI、Google,以及创业公司如MiniMax等,都在紧锣密鼓地发布自己的语音模型或语音产品。甚至有消息称,Siri可能将被ChatGPT或Claude等模型接管,以跟上语音交互的最新进展。这些现象都指向了一个共同的趋势:AI语音正在迎来爆发。
那么,为什么在过去半年多的时间里,AI语音领域会如此集中地爆发?声智副总裁黄赟贺认为,语音对话从App中的一个功能模块,迅速进化为AI时代的入口,这与大模型的强大加持密不可分。
声智作为一家在幕后提供AI声学技术的公司,在大模型浪潮来临之际,果断选择投身C端产品开发。他们敏锐地捕捉到“大模型+语音”浪潮中蕴藏的巨大商业机会,其旗下的AI耳机目前出货量已接近100万套。
本文将深入探讨AI语音市场爆发的逻辑、语音交互的关键挑战,以及它将如何影响我们的未来。
大模型驱动:声音的可编程化
AI语音初创团队如雨后春笋般涌现,并获得巨额融资,这其中一个重要的推动因素是,大模型让声音这项基础能力首次实现了“可编程化”。
“可编程化”意味着将一种能力或对象,通过清晰的接口和逻辑,使其能够被代码自由地调用、组合、修改和控制。过去,文字、图像甚至是视频都已实现了可编程化,但声音更多的是作为一种“输入”或“输出”的介质存在,其内部的复杂结构和信息难以被软件直接“编程”和“理解”。
传统的语音识别,更多是将声音转换为文字,然后对文字进行处理。例如,过去需要大量的人工团队进行声音标注,将语音转换为文字,并打上各种特征、意向的标签。而现在,这项工作可以交给大模型来完成,其速度和准确性远超人工团队。
过去,语音的开发每增加一个功能都需要从头编写代码,费时费力。例如,要让智能音箱支持“点外卖”功能,需要单独开发一套语音识别和语义逻辑,成本高昂且周期漫长。而现在,AI大模型可以有效解决这些问题。
更重要的是,依靠大模型对多模态数据的深度理解能力,以及对声学信号的细致解析,使得声音本身携带的,除了文字信息之外的更多信息,开始被AI系统直接捕捉、理解和“编程”。这种可编程化意味着AI可以像处理数据一样处理声音,它可以分析声音的频率、振幅、波形,提取出情绪特征,识别不同的声源、声源距离,甚至预测用户的意图。
此时,声音包含的不再仅仅是“你说了什么”,更是“你如何说”、“你在哪里说”、“谁在说”以及“你说了之后希望发生什么”。由此,声音成为了真正的交互引擎。
从“Voice”到“Sound”:语音交互的演进
很多人认为,语音交互就是“Voice”(语音),但实际上,Voice只是一个狭隘的概念。真正的语音交互,核心不是Voice,而是“Sound”(声音)。Sound包含了Voice,以及更丰富的元素:语调、音色、节奏、情绪,以及环境音。
环境音中包含了各种非语音信息,例如背景音乐、环境噪音(风声、雨声、车声)、物体发出的声音(开门声、打字声),以及人类语音中包含的非语义信息(语调、语速、音色、语气词、叹息声、笑声、哭声等)。
例如,当用户咳嗽时与AI对话,AI可能会识别出咳嗽声,并建议多喝水;当用户在咖啡馆说“帮我找个安静的地方”,AI不仅要理解用户的指令,还要从背景音中判断出当前环境嘈杂,从而推荐附近的图书馆。
下一代对话交互的入口并非Voice,而是Sound。AI系统将不再仅仅依赖于识别用户说的“词”,而是能够全面感知和理解用户所处环境的“声学场景”中的所有关键元素。
只有当AI能够全面感知并解析Sound中包含的多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。这才是真正的语音交互,它不仅仅是“听懂”字面意思,更是“听懂”用户的“言外之意”和“心声”。
声学:语音交互的关键瓶颈
尽管大模型带来了语音交互的巨大飞跃,但语音交互当下依然存在一个核心的瓶颈,那就是声学。我们常说“听清、听懂、会说”, “听懂”和“会说”的能力正在被大模型以前所未有的速度提升,但“听清”这个最基础的环节,却受到物理层面的制约。
如果AI听不清用户的指令,即便它能“听懂”再复杂的语义,能“会说”再动听的话语,那也都是空中楼阁。
例如,当下热门的具身智能机器人,由于电路噪声、关节噪声以及金属材质的阻碍,导致其在运动时产生很大的噪声,尤其是在室外,难以听清楚人的指令。因此,现在很多机器人都要靠遥控器来控制。
解决这一问题需要对声学层面进行突破,例如环境噪声的抑制、电路底噪的抑制,以及啸叫的抑制、混响回响的抑制等。这需要大量的数据样本和know-how积累,需要时间去采集声音、做训练,这不是烧钱就能解决的。
让AI准确地“听清”用户的指令,依然是一个世界级的难题。而声学相关的人才稀缺,因此像谷歌、微软、苹果等科技巨头经常会收购声学技术的初创公司。大家都明白,要构建真正的下一代人机交互系统,拥有核心的声学能力是基石。
从功能到情感:语音交互的未来
现在很多AI应用的日活、留存不高,一个很大的原因在于,普通人本身不擅长提问,让人向大模型提问,这本身就是一个非常高的交互门槛。好的提问需要学识、表达等基础,因此停留在文字层面的问答,本身就是一种限制。
而语音带来了一种可能性,那就是开启人机交互的“共情模式”。如果把语音交互比作一个UI界面,那么这个界面会长什么样?
其构成要素可能包括:
- 情绪识别:AI通过分析语调、音量、语速,判断用户的情感状态。例如,如果用户的声音颤抖,AI可能会推测其处于紧张或伤心的状态。
- 意图理解:AI不仅要听懂用户说了什么,还要明白用户想做什么。例如,当用户说“播放音乐”时,AI会根据用户的情绪,决定播放摇滚还是古典音乐。
- 声纹识别:通过独一无二的音声波特征,区分不同的用户。例如,家里的智能音箱可以自动切换到“孩子模式”,只为孩子的声音提供安全的回应。
- 情绪生成:AI的回应需要带有情感化的表达。例如,用温暖的语气说“别担心,我来帮你解决”,而不是机械地说“好的,正在处理”。
这些要素的背后,是AI从“功能导向”到“情感导向”的转变,AI会与人实现共情。这种交互能够显著提升长时间交互的质量和亲密感。
不仅如此,从狭义的Voice拓展到广义的Sound,当AI能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,就可以构建一个“声学世界模型”。
这个声学世界模型可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要“听清”和“听懂”,更要具备“声学常识”和“声学推理”的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌;能通过回声判断出房间的大小与空旷程度;更能理解“脚步声由远及近”背后所蕴含的物理运动逻辑。
未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再“失聪”和冰冷。这也是目前AI语音技术正在努力实现的目标。