AI语音技术爆发的逻辑与未来展望
引言:AI语音领域的蓬勃发展
近年来,人工智能(AI)语音技术领域呈现出前所未有的爆发式增长。尽管早期的语音助手如苹果Siri遭遇了一些挫折,但新一代的“AI Siri”们正以惊人的速度获得融资,预示着语音交互技术即将迎来新的黄金时代。本文将深入探讨AI语音技术爆发的原因、面临的挑战以及未来的发展趋势,力求为读者呈现一个全面而深入的行业分析。
资本涌入:AI语音赛道的融资热潮
过去半年,AI语音领域密集地涌入大量资金,尤其值得关注的是,这些融资往往金额巨大,并且投向成立时间不长的早期团队。例如,Wispr Flow凭借其独特的“默念输入”技术,成功完成了3000万美元的A轮融资,累计融资额高达5600万美元。语音模型公司Cartesia也在3月份完成了6400万美元的A轮融资,累计融资9100万美元。而AI语音合成公司ElevenLabs更是在1月份宣布完成1.8亿美元的C轮融资,估值超过30亿美元。
这些巨额融资的背后,是市场对AI语音技术未来发展潜力的强烈信心。不仅初创公司备受青睐,科技巨头如Meta、OpenAI和Google,以及新兴的创业公司如MiniMax,都在积极发布各自的语音模型或语音产品。甚至有消息称,Siri也将被ChatGPT或Claude等模型接管,以跟上语音交互的最新进展。
行业洞察:AI语音爆发的深层逻辑
声智副总裁黄赟贺认为,语音对话正从App中的一个功能模块,迅速演变为AI时代的入口。这种转变与大型语言模型的赋能密不可分。在智能音箱风靡一时的年代,声智的远场声学交互技术被广泛应用于各种主流智能音箱品牌,如小爱同学、天猫精灵和小度音箱等。甚至,“小爱小爱”的唤醒词也源自声智。
作为一家深耕声学+AI交叉领域的公司,声智在2016年创立后,始终致力于探索AI声学技术的边界。面对大模型带来的机遇,声智果断地选择进入C端市场,开发自己的产品。这一决策无疑是看到了“大模型+语音”浪潮中蕴藏的巨大商业潜力。目前,声智旗下的AI耳机出货量已接近100万套。
极客公园与声智副总裁黄赟贺深入探讨了AI语音市场的爆发逻辑、语音交互的关键挑战以及它将如何影响我们的未来。
大模型赋能:声音的可编程化
AI语音领域在过去两年集中爆发,一个重要的推动因素是大型语言模型(LLM)使得声音这项基础能力首次实现了“可编程化”。“可编程化”意味着通过清晰的接口和逻辑,将一种能力或一个对象转化为可以被代码自由调用、组合、修改和控制的状态。过去,文字、图像甚至视频都已实现了可编程化,但声音更多地被视为一种输入或输出的介质,其内部的复杂结构和信息难以被软件直接“编程”和“理解”。
传统的语音识别主要是将声音转换为文字,然后对文字进行处理。例如,在深圳和成都,曾有大量的团队从事声音标注工作,他们将语音人工转换为文字,并打上各种标签,如特征标签和意向标签。而现在,这项工作可以交给大型语言模型来完成,其速度和准确性远超人工团队。
以前,自然语言处理(NLP)的背后需要大量的运营人员进行标注,以使AI系统能够识别每个句子的意向。过去,语音的开发每增加一个功能都需要从头编写代码,耗时费力。例如,要让智能音箱支持“点外卖”功能,需要单独开发一套语音识别和语义逻辑,成本高且周期长。而现在,AI大模型可以解决这些问题。
更重要的是,借助大模型对多模态数据的深度理解能力以及对声学信号的细致解析,AI系统能够直接捕捉、理解和“编程”声音本身携带的更多信息,而不仅仅是文字信息。这种可编程化意味着AI可以像处理数据一样处理声音,分析声音的频率、振幅和波形,提取情绪特征,识别不同的声源和声源距离,甚至预测用户的意图。
这时,声音包含的不再仅仅是“你说了什么”,更是“你如何说”、“你在哪里说”、“谁在说”以及“你说了之后希望发生什么”。由此,声音成为了真正的交互引擎。
从“Voice”到“Sound”:语音交互的进化
很多人认为语音交互就是“Voice”,但实际上“Voice”是一个狭窄的概念。真正的语音交互核心不是“Voice”,而是“Sound”。“Sound”包含了更丰富的元素:语调、音色、节奏、情绪,更重要的是环境音。环境音中可能包含各种非语音信息,例如背景音乐、环境噪音(风声、雨声、车声)、物体发出的声音(开门声、打字声)以及人类语音中包含的非语义信息(语调、语速、音色、语气词、叹息声、笑声、哭声等)。
例如,当用户咳嗽时与AI对话,AI可能会识别出咳嗽并建议多喝水。或者,当用户在咖啡馆说“帮我找个安静的地方”时,AI不仅要理解用户的指令,还要从背景音中判断出当前环境嘈杂,从而推荐附近的图书馆。
下一代对话交互的入口并非“Voice”,而是“Sound”。AI系统将不再仅仅依赖于识别用户所说的“词”,而是能够全面感知和理解用户所处环境的“声学场景”中的所有关键元素。只有当AI能够全面感知并解析“Sound”中包含的多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化和更富有情感的交互。这才是真正的“语音交互”,它不仅仅是“听懂”字面意思,更是“听懂”用户的“言外之意”和“心声”。
声学挑战:语音交互的“卡点”
尽管大模型带来了语音交互的巨大飞跃,但语音交互依然存在一个核心的“卡点”,这个卡点根植于物理学,具体来说就是声学。我们常说“听清、听懂、会说”。“听懂”和“会说”的能力正被大模型以前所未有的速度提升,但“听清”这个最基础的环节却受到物理层面的制约。如果AI听不清用户的指令,即便它能“听懂”再复杂的语义,能“会说”再动听的话语,那也都是空中楼阁。
例如,当下最热门的具身智能机器人存在一些问题:一方面是电路的噪声很大,另一方面是关节噪声。此外,许多机器人由金属材料制成,声音在穿透时会大幅衰减。因此,机器人移动时噪声很大,尤其在室外,更难听清楚人的指令。要么大声喊,要么使用麦克风。所以,现在许多机器人需要通过遥控器来控制。
这需要对声学层面进行突破,例如环境噪声的抑制、电路底噪的抑制,以及啸叫的抑制和混响回响的抑制等。这些都是物理学科的逻辑,需要数据样本和know-how壁垒。这不仅是技术问题,也是时间问题,需要时间去采集声音并进行训练。这不是烧钱就能解决的。
让AI准确地“听清”用户的指令仍然是一个世界级的难题。而声学相关的人才非常稀缺,因此像谷歌、微软和苹果等公司经常收购声学技术的初创公司。大家都明白,要构建真正的下一代人机交互系统,拥有核心的声学能力是基石。
情感共鸣:语音交互的未来
现在许多AI应用的日活跃用户和留存率不高,一个很大的原因是普通人本身不会提问。让人向大模型提问本身就是一个非常高的交互门槛。好的提问需要学识和表达等基础,所以停留在文字层面的问答本身就是一种门槛限制。
语音带来的一种可能性是,它正在开启一个全新的阶段——人机交互的“共情模式”。如果把语音交互比作一个“UI界面”,那这个界面会长什么样?我们可以进行推演,其构成要素可能包括:
- 情绪识别:AI通过分析语调、音量和语速来判断用户的情感状态。例如,如果用户的声音颤抖,AI可能会推测用户感到紧张或伤心。
- 意图理解:不仅要听懂用户说了什么,还要明白用户想做什么。例如,如果用户说“播放音乐”,AI会根据用户的情绪决定播放摇滚还是古典音乐。
- 声纹识别:通过独特的音声波特征来区分不同的用户。例如,家里的智能音箱可以自动切换到“孩子模式”,只为孩子的声音提供安全的回应。
- 情绪生成:AI的回应需要带有情感化的表达。例如,用温暖的语气说“别担心,我来帮你解决”,而不是机械地说“好的,正在处理”。
这些要素的背后是AI从“功能导向”到“情感导向”的转变,AI将与人实现共情。这种交互可以显著提升长时间交互的质量和亲密感。
不仅如此,从狭义的“Voice”拓展到广义的“Sound”,当AI能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以构建一个“声学世界模型”。这个“声学世界模型”可以理解声音在物理世界中产生、传播和交互的根本规律。它不仅要“听清”和“听懂”,更要具备“声学常识”和“声学推理”的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌,能通过回声判断出房间的大小与空旷程度,更能理解“脚步声由远及近”背后所蕴含的物理运动逻辑。
未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再“失聪”和冰冷。这也是我们正在努力实现的目标。
结论:AI语音技术的未来展望
AI语音技术正迎来前所未有的发展机遇。随着大型语言模型的不断进步和声学技术的持续突破,AI语音交互将变得更加智能、自然和富有情感。从智能家居到具身智能机器人,AI语音技术将在各个领域发挥越来越重要的作用,为人类创造更加便捷、高效和人性化的生活体验。