在语音AI领域,实时性和低延迟一直是开发者追求的目标。近日,TEN Agent团队宣布开源其核心模型TEN Voice Activity Detection (VAD)和TEN Turn Detection,为构建实时、多模态的语音AI代理提供了强大的技术支持。这一举措无疑为语音交互技术的民主化和开源协作注入了新的活力。
TEN VAD:低延迟高性能的语音活动检测
TEN VAD是一款专为企业级应用设计的实时语音活动检测器,以其低延迟、轻量化和高性能而备受关注。与业界常用的WebRTC VAD和Silero VAD相比,TEN VAD能够精确到帧级别地检测语音活动,从而实现更快速、更准确的语音识别。
其核心亮点包括:
- 低计算复杂度:TEN VAD的库体积小,计算复杂度低,使其能够轻松部署在各种平台上。它支持跨平台C语言兼容,覆盖Linux x64、Windows、macOS、Android和iOS等多种操作系统。此外,TEN VAD还提供针对Linux x64的Python绑定和Web端的WASM支持,进一步扩展了其应用范围。
- 高精度与低延迟:在语音到非语音的转换检测中,TEN VAD的延迟更低,能够快速识别短暂停顿。这对于实时交互场景至关重要,可以避免AI代理在用户停顿时过早地做出反应。测试结果表明,TEN VAD的实时因子(RTF)在多种CPU平台上表现优异,充分证明了其高性能。
- 最新的开源进展:TEN团队于2025年6月开源了ONNX模型及预处理代码,这意味着TEN VAD可以在任何支持ONNX的平台和硬件架构上部署,从而大大提高了灵活性。WASM+JS的支持也使得TEN VAD在Web端的应用成为可能。
开发者们对TEN VAD的开源表示高度认可,认为其性能超越了传统的VAD模型,为实时语音助手开发提供了强有力的工具。TEN VAD的低延迟和高精度特性,使得AI代理能够更自然、更流畅地与用户进行交互。
TEN Turn Detection:智能对话轮次管理
TEN Turn Detection是一款专为全双工语音通信设计的智能轮次检测模型,旨在解决人机对话中最具挑战性的问题之一:准确判断用户何时结束发言,并进行上下文感知的中断处理。在人机对话中,AI代理需要准确判断用户的意图,才能做出合适的反应。TEN Turn Detection通过分析对话的语义上下文和语言模式,能够精准区分用户发言的“完成”、“等待”和“未完成”状态,从而避免不必要的AI打断。
其关键特性包括:
- 语义分析能力:TEN Turn Detection基于Qwen2.5-7B的Transformer模型,通过分析对话的语义上下文和语言模式,能够精准区分用户发言的不同状态。例如,它可以识别“嘿,我想问个问题……”为未完成发言,从而避免不必要的AI打断,保证对话的流畅性。
- 多语言支持:TEN Turn Detection目前支持英语和中文,能够准确识别多语言对话中的轮次信号,适用于全球化应用场景。这意味着开发者可以使用TEN Turn Detection构建支持多种语言的AI代理,从而满足不同用户的需求。
- 优异性能:在公开测试数据集上,TEN Turn Detection在各项指标上均超越其他开源轮次检测模型,尤其在动态实时对话中表现出色。这充分证明了TEN Turn Detection在实际应用中的价值。
- 自然交互体验:结合TEN VAD,TEN Turn Detection使AI代理能够像人类一样等待合适的发言时机,或在适当的语境下处理用户中断,从而打造更自然的对话体验。这种自然交互体验对于提升用户满意度至关重要。
TEN Agent生态:多模态实时AI的基石
TEN Agent是TEN框架的展示项目,整合了TEN VAD、TEN Turn Detection等核心组件,支持语音、视频、文本等多模态实时交互。它在整个生态系统中扮演着重要的角色。
TEN Agent的作用体现在以下几个方面:
- 无缝集成:TEN VAD与TEN Turn Detection作为TEN框架的插件,开发者可以通过简单配置将其融入语音代理开发流程,支持与Deepgram、ElevenLabs等服务的集成。这种无缝集成大大简化了开发过程,提高了开发效率。
- 多场景应用:TEN Agent支持从智能客服、实时翻译到虚拟伴侣等多种用例。例如,结合Google Gemini多模态API,TEN Agent可实现实时视觉和屏幕共享检测,扩展了其在教育、医疗等领域的应用。这意味着TEN Agent可以应用于各种不同的场景,满足不同用户的需求。
- 开源协作:TEN框架的全部组件(除TEN VAD部分代码外)均已完全开源,鼓励社区开发者贡献代码、修复Bug或提出新功能。TEN团队通过GitHub Issues和Projects提供协作渠道,吸引了广泛的开发者参与。这种开源协作模式有助于TEN框架的不断完善和发展。
TEN Agent的开源,为开发者们提供了一个强大的工具,可以用于构建各种实时语音AI应用。通过TEN Agent,开发者可以轻松地实现低延迟、高精度的语音识别和轮次检测,从而打造更自然、更流畅的人机交互体验。
展望未来
TEN Agent团队开源TEN VAD和TEN Turn Detection,无疑是语音AI领域的一项重要进展。这些开源模型将为开发者提供强大的技术支持,加速语音AI应用的创新和发展。未来,我们期待TEN Agent团队能够继续推出更多优秀的开源项目,为语音AI技术的进步做出更大的贡献。
同时,我们也希望更多的开发者能够参与到TEN Agent的开源社区中来,共同推动语音AI技术的发展。通过开源协作,我们可以集思广益,共同解决语音AI领域面临的挑战,从而实现更智能、更便捷的人机交互。
语音AI技术的未来充满无限可能。随着技术的不断进步和应用场景的不断拓展,语音AI将在我们的生活中扮演越来越重要的角色。让我们共同期待语音AI技术的美好未来!