151%增长背后:AI语音如何成为人机交互新入口

1

AI语音技术正以惊人的速度发展,声网数据显示其对话式AI相关用量在2025年第三季度实现151%的环比增长。这一现象背后,是AI语音从单纯的"连接"向真正的"对话"的深刻转变。当人们期待AI能"听懂"言语,"理解"人心时,AI产业与技术正迎来一场前所未有的变革。

万亿分钟背后的技术跃迁

10月31日,由声网与RTE开发者社区联合主办的Convo AI & RTE 2025第十一届实时互联网大会在北京开幕。本届大会以"AI有声"为主题,汇聚全球顶尖专家,探索实时互动(RTE)与对话式AI的深度融合之道。

声网创始人兼CEO赵斌在开场演讲中宣布了一个重要里程碑:声网年度服务分钟数首次突破1万亿分钟,标志着RTE技术已成为数字社会不可或缺的基础设施。这一数字背后,是实时互动技术从简单连接向深度对话的转变。

Deepgram和Opus Research的调研显示,67%的企业已将语音AI智能体置于战略核心,84%的企业计划在未来一年增加相关投入。这些数据表明,对话式AI正从边缘技术走向主流应用,成为企业数字化转型的重要引擎。

AI语音技术发展

从"连接"到"对话"的本质转变

在实时互动技术步入"万亿分钟"时代,声网正推动一场从"连接"到"对话"的变革。作为实时互动领域的基础设施构建者,声网对AI语音的认知早已超越单纯的技术连通,而是聚焦于如何让AI真正"听懂"人类语言背后的情感与意图。

赵斌指出,当前AI对话体验面临的核心矛盾在于:人类对话中仅有7%的信息来自语言内容,超过90%的信息感知依赖于语调、表情和肢体语言等非语言要素。想要做好人机对话,就要教会AI看到这些"言外之意",并且能够从中分析到说话人的真正意图。

在赵斌看来,对话式AI正驱动RTE从"正常对话"向"声情并茂"的关键跃迁,这不仅是技术升级,更是交互范式的本质转变。多模态大语言模型的成熟为AI装上了"新大脑",如何将其理解能力更好地发挥出来,成为行业面临的关键挑战。

多模态AI交互

三大技术难题的突破

声网在过去多年持续攻坚"听到、听懂、理解"三大难题,每一层突破都为人机交互带来了质的飞跃。

"听到":网络架构的革命

在"听到"层面,声网自研的SD-RTN网络实现76ms端到端延迟,较WebRTC标准提升8倍,为高质量语音交互奠定基础。这一全新的网络架构不仅能大幅降低端到端响应延迟,还能兼容多种主流大模型,为AI语音提供了稳定高效的基础设施支持。

"听懂":多模态融合的飞跃

在"听懂"层面,声网的对话式AI引擎2.0实现了技术飞跃。通过多模态融合,它不仅能处理音频,更新增了声纹识别、数字人与视觉理解功能,让AI能够识别说话人的身份特征、感知环境画面信息,将单纯的声音信号升级为有上下文的"场景数据流"。

声纹识别功能赋予AI精准识别用户声纹特征的能力,可智能屏蔽环境噪声,大大提高了语音交互的准确性和个性化程度。这种多模态融合技术,使AI能够从单一的声音信号中提取更丰富的信息,为后续的理解奠定了基础。

"理解":捕捉那93%的非语言信息

在最核心的"理解"层面,声网通过上下文管理、情感理解等系统化方案,主要捕捉那93%的非语言信息。这一层面的突破,使得AI能够真正理解人类语言背后的情感和意图,而不仅仅是识别字面意思。

声网联合打造的TEN.VAD语音活动检测AI模型,能够在真实案例中将音频传输数据量减少达62%,同时快速检测语音与非语音之间的切换,降低人际交互的端到端延迟和打断延迟,大大提升了交互的自然流畅度。

三大率先落地的应用场景

从技术到应用,声网正推动对话式AI在多个关键场景中规模化落地。赵斌指出,对话式AI将在情感陪伴、智能硬件、在线教育三大场景中率先实现规模化落地。

情感陪伴:AI成为情绪稳定器

在情感陪伴场景中,AI正成为缓解现代人孤独感的新载体,备受人们关注。像珞博智能的AI毛绒宠物"芙崽"通过长期记忆系统,能够感知用户情绪变化并主动召回快乐记忆,成为用户的情感伙伴。

据调查,85%用户都带有负向情绪,不开心、难过、抑郁、甚至有明显自杀倾向的也不少。而和AI交流自己的苦闷之处,也成为不少年轻人消解情绪的方式之一。AI情感陪伴产品主要通过技术手段为用户提供情感支持,正成为新的社会情绪稳定器。

AI情感陪伴产品

智能硬件:从功能执行到情感链接

在RTE2025大会的AI硬件专场上,小匠物联的创始人米雪龙分享了他们对AI与硬件融合的深刻见解。他认为,未来的智能硬件将不再是简单的功能执行者,而是能主动理解人、并与用户建立情感链接的"陪伴者"。

这种转变正在悄然发生。我们看到Lumu机器人等桌面机器人不仅能够执行基础操作,还能通过语音与用户进行简单互动。未来的智能硬件将更加注重情感交互,成为人机关系的重要纽带。

在线教育:个性化教学的革命

在教育领域,盒智科技CTO张昊介绍了其产品LOOKEE口语侠搭载的AURA动态调控系统。该系统能异步分析孩子的情感状态、内容理解度、对话积极性等多维数据,并实时调整对话策略、语速语调甚至设备表情,目的是让孩子"能聊下去、爱聊下去",从根本上提升产品的完课率和留存率。

这种AI驱动的个性化教学正在改变传统教育模式。通过实时分析学生的学习状态和反应,AI教师能够调整教学策略,使学习过程更加符合个体需求,大大提高了学习效果和用户体验。

LOOKEE口语侠

市场应用现状与挑战

在声网RTE2025大会主论坛之外,展区同样人流如织,AI音频技术在不同场景下迸发着活力。然而,想要让人和AI之间流畅地对话,并没有那么简单。其中,大家更多讨论的两个问题是:AI如何理解人类的断句,以及当有多个AI语音智能体打开时,AI如何判断用户是在和自己对话。

对于断句问题,声网已经通过TEN.VAD语音活动检测AI模型取得了一定进展,能够在真实案例中将音频传输数据量减少达62%,快速检测语音与非语音之间的切换,降低人际交互的端到端延迟和打断延迟。然而,对于多AI智能体环境下的对话识别,目前仍没有完美的解决方案。

教育领域的AI应用

在AI教育展区,盒智科技推出的LOOKEE口语侠是一款帮助孩子进行英语口语学习的AI硬件。他们引入了自研的AURA动态调控系统,可分析孩子的情感状态、内容理解度、对话积极性等维度。基于这些数据实时调整对话策略,从而实现真正的个性化教学,让语言学习从枯燥的任务转变为自然的交流过程。

在语音设置上,他们主要选择了几个典型人物声音和一些儿童IP的声音提高孩子们使用的兴趣程度。这种人性化的设计大大提升了产品的用户体验,使学习过程更加愉悦和有效。

AI硬件的崛起

在AI硬件展台,AI潮玩产品"芙崽Fuzozo"颇受欢迎。它不仅是毛绒玩具,更能通过语音进行自然对话,甚至有自己的"毛毛语"。工作人员介绍,其内置的多模态情感模型和长期记忆系统,能记住用户的喜好和之前的聊天内容,就像一个真正的伙伴。据了解,这款产品退货率远低于行业平均水平。

Lumu机器人是哈尔滨工业大学孵化的陆吾智能打造的桌面机器人,它可以简单执行前进、跳舞,蹲下等基础操作。虽然功能相对简单,但代表了AI硬件与语音交互结合的初步尝试。

创业公司的探索

此外,我们还观察到不少AI语音创企正在打造一些市场调研、AI传记编写等软件。比如说,ListenHub想成为创作者的AI"嘴替",主要为创作者提供真实自然的语音内容和服务,如数字人配音、播客、小说朗读、有声故事书等。通过数据积累和大规模的工程化,ListenHub的AI系统能够在1-5分钟内将任意文本内容转化为具备真实对话感的高质量音频。

ValidFlow.AI通过AI研究员和全球用户池的组合,可以更全面高效地做好用户洞察,提高问卷回收分析。这些创新应用展示了AI语音技术在各个领域的广阔应用前景。

未来展望:1500亿美元的新赛道

ARK Invest预测AI陪伴赛道将扩张至700-1500亿美元——对话式AI,已然成为下一代AI基础设施的核心组成部分。随着技术的不断成熟和应用场景的持续拓展,AI语音正成为连接人类与数字世界的"新入口"。

目前,AI音频已远远超越了"听清"的基础要求,正向着"听懂"、"感知情绪"和"创造沉浸"迈进。它正在悄无声息地融入硬件、教育和日常交互的方方面面,一个更加智能、自然且充满温度的有声世界,正在我们眼前缓缓开启。

声网创始人兼CEO赵斌表示:"对话式AI的崛起不仅是技术的进步,更是人机交互范式的革命。未来,我们将看到更多能够理解人类情感、意图的AI应用,它们将重新定义我们与技术的关系,创造更加人性化、个性化的数字体验。"

随着151%的增长势头持续,AI语音正成为AI产业中最具活力的领域之一,一个1500亿美元的新赛道正在形成,而这一切才刚刚开始。