在人工智能飞速发展的今天,一个令人瞩目的数据正在引发行业震动:151%的环比增长。这一数字背后,是AI语音技术以前所未有的速度重塑人机交互的格局。当人们期待AI能够真正'听懂'言语,'理解'人心时,AI语音技术正悄然成为连接人类与机器的'新入口'。
万亿分钟背后的技术飞跃
2025年10月31日,由声网与RTE开发者社区联合主办的Convo AI & RTE 2025第十一届实时互联网大会在北京开幕。本届大会以'AI有声'为主题,汇聚全球顶尖专家,共同探索实时互动(RTE)与对话式AI的深度融合之道。

声网创始人兼CEO赵斌在开场演讲中宣布了一个重要里程碑:声网年度服务分钟数首次突破1万亿分钟。这一数字不仅标志着RTE技术已成为数字社会不可或缺的基础设施,更预示着AI语音技术进入了一个全新的发展阶段。
Deepgram和Opus Research的最新调研显示,67%的企业已将语音AI智能体置于战略核心位置,而84%的企业计划在未来一年增加相关投入。声网对话式AI相关用量在2025年第三季度实现151%的环比增长,这一数据充分展现了市场对AI语音技术的强劲需求。
从'连接'到'对话':AI语音的范式转变
在实时互动技术步入'万亿分钟'时代,声网正推动一场从'连接'到'对话'的深刻变革。作为实时互动领域的基础设施构建者,声网对AI语音的认知早已超越单纯的技术连通,而是聚焦于如何让AI真正'听懂'人类语言背后的情感与意图。
赵斌在RTE2025大会上指出,当前AI对话体验面临的核心矛盾在于:人类对话中仅有7%的信息来自语言内容,超过90%的信息感知依赖于语调、表情和肢体语言等非语言要素。想要做好人机对话,就必须教会AI看到这些'言外之意',并从中分析说话人的真正意图。

对话式AI正驱动RTE从'正常对话'向'声情并茂'的关键跃迁,这不仅是技术升级,更是交互范式的本质转变。随着多模态大语言模型的成熟,AI获得了'新大脑',如何将其理解能力更好地发挥出来,成为行业面临的关键挑战。
三大技术难题的突破
声网在过去多年持续攻坚'听到、听懂、理解'三大难题,每一项技术的突破都为人机交互带来了质的飞跃。
'听到':极致的语音捕捉
在'听到'层面,声网自研的SD-RTN网络实现76ms端到端延迟,较WebRTC标准提升8倍,为高质量语音交互奠定了坚实基础。这一网络架构不仅能大幅降低端到端响应延迟,还能兼容多种主流大模型,为AI语音提供了强大的底层支持。
'听懂':多模态融合的飞跃
在'听懂'层面,声网的对话式AI引擎2.0实现了技术飞跃。通过多模态融合,它不仅能处理音频,还新增了声纹识别、数字人与视觉理解功能,让AI能够识别说话人的身份特征、感知环境画面信息,将单纯的声音信号升级为有上下文的'场景数据流'。
特别值得一提的是,声纹识别功能赋予AI精准识别用户声纹特征的能力,可智能屏蔽环境噪声,在嘈杂环境中也能保持高识别率。这一技术对于需要长期交互的AI应用尤为重要。
'理解':捕捉非语言信息的艺术
在最核心的'理解'层面,声网通过上下文管理、情感理解等系统化方案,主要捕捉那93%的非语言信息。这不仅包括语调变化,还涵盖了说话节奏、音量变化、情感色彩等细微特征,使AI能够更准确地理解用户的真实意图和情感状态。
三大场景:对话式AI的规模化落地
从技术到应用,声网正推动对话式AI在多个关键场景中规模化落地。赵斌指出,对话式AI将在情感陪伴、智能硬件、在线教育三大场景中率先实现规模化应用。
情感陪伴:AI成为情绪稳定器
在情感陪伴场景中,AI正成为缓解现代人孤独感的新载体,备受人们关注。像珞博智能的AI毛绒宠物'芙崽'通过长期记忆系统,能够感知用户情绪变化并主动召回快乐记忆,为用户提供持续的情感支持。
据调查,85%用户都带有负向情绪,不开心、难过、抑郁甚至有明显自杀倾向的也不少。而和AI交流自己的苦闷之处,已成为不少年轻人消解情绪的方式之一。AI情感陪伴产品正通过技术手段为用户提供情感支持,成为新的社会情绪稳定器。
在线教育:个性化教学的革命
在教育领域,盒智科技CTO张昊介绍了其产品LOOKEE口语侠搭载的AURA动态调控系统。该系统能异步分析孩子的情感状态、内容理解度、对话积极性等多维数据,并实时调整对话策略、语速语调甚至设备表情,目的是让孩子'能聊下去、爱聊下去',从根本上提升产品的完课率和留存率。
这一技术彻底改变了传统语言学习机械重复的模式,使学习过程更加自然、个性化,大大提高了学习效率和用户粘性。
智能硬件:从功能执行到情感链接
在RTE2025大会的AI硬件专场上,小匠物联的创始人米雪龙分享了他们对AI与硬件融合的深刻见解。他认为,未来的智能硬件将不再是简单的功能执行者,而是能主动理解人、并与用户建立情感链接的'陪伴者'。
这一理念正在重塑智能硬件的设计哲学,使产品从单一功能向情感交互转变,为用户带来更加温暖、智能的使用体验。
用户视角:AI语音的体验与挑战
在声网RTE2025大会主论坛之外,展区同样人流如织,人们亲身感受AI音频技术在不同场景下迸发的活力。同时也更真实地意识到,想要让人和AI之间流畅地对话,并没有那么简单。
技术挑战:断句识别与多AI对话
在展区,大家更多讨论的两个问题是:AI如何理解人类的断句,以及当有多个AI语音智能体打开时,AI如何判断用户是在和自己对话。
对于断句识别问题,声网联合打造了TEN.VAD语音活动检测AI模型,不仅能在真实案例中将音频传输数据量减少达62%,还能快速检测语音与非语音之间的切换,降低人际交互的端到端延迟和打断延迟。
而对于多AI对话判断问题,目前行业尚未看到完美的解决方案,这仍是未来需要攻克的难点。
应用场景:从教育到生活的全方位覆盖
在AI教育展区,盒智科技推出的LOOKEE口语侠是一款帮助孩子进行英语口语学习的AI硬件。它引入了自研的AURA动态调控系统,可分析孩子的情感状态、内容理解度、对话积极性等维度,基于这些数据实时调整对话策略,实现真正的个性化教学。
在语音设置上,产品选择了几个典型人物声音和一些儿童IP的声音,提高孩子们使用的兴趣程度,使语言学习从枯燥的任务转变为自然的交流过程。
AI硬件展台上,AI潮玩产品'芙崽Fuzozo'颇受欢迎。它不仅是毛绒玩具,更能通过语音进行自然对话,甚至有自己的'毛毛语'。工作人员介绍,其内置的多模态情感模型和长期记忆系统,能记住用户的喜好和之前的聊天内容,就像一个真正的伙伴。据了解,这款产品退货率远低于行业平均水平。
此外,哈尔滨工业大学孵化的陆吾智能打造的Lumu桌面机器人也吸引了众多目光。它可以简单执行前进、跳舞,蹲下等基础操作,展现了AI硬件在基础交互能力上的进步。
创业生态:AI语音应用的多元化发展
除了硬件产品,我们还观察到不少AI语音创企正在打造各种创新应用。ListenHub想成为创作者的AI'嘴替',主要为创作者提供真实自然的语音内容和服务,如数字人配音、播客、小说朗读、有声故事书等。通过数据积累和大规模的工程化,ListenHub的AI系统能够在1-5分钟内将任意文本内容转化为具备真实对话感的高质量音频。
ValidFlow.AI则通过AI研究员和全球用户池的组合,可以更全面高效地做好用户洞察,提高问卷回收分析,为市场调研提供了新的可能性。
未来展望:700-1500亿美元的市场潜力
ARK Invest预测AI陪伴赛道将扩张至700-1500亿美元,这一数字充分展示了对话式AI的巨大市场潜力。随着技术的不断成熟和应用场景的持续拓展,AI语音正从'听清'的基础要求,向着'听懂'、'感知情绪'和'创造沉浸'迈进。
它正在悄无声息地融入硬件、教育和日常交互的方方面面,一个更加智能、自然且充满温度的有声世界,正在我们眼前缓缓开启。对话式AI,已然成为下一代AI基础设施的核心组成部分,将为数字社会注入新的活力与可能性。
结语
AI语音技术的151%增长不仅仅是数字的跃升,更是人机交互范式的深刻变革。从'连接'到'对话',从'正常对话'到'声情并茂',这一转变背后是技术的突破与创新的融合。随着多模态大语言模型的成熟和AI语音应用的不断拓展,我们正迎来一个人机交互更加自然、智能的新时代。未来,AI语音将进一步融入我们的生活,成为连接人类与数字世界的桥梁,为每个人带来更加丰富、温暖的技术体验。




