MOSS-TTSD:清华开源的AI对话语音生成模型,赋能未来语音应用

2

在人工智能领域,语音生成技术正以惊人的速度发展,其中,清华大学语音与语言实验室(与腾讯AI Lab合作)开源的MOSS-TTSD模型无疑是这一领域的耀眼新星。该模型专注于口语对话语音生成,能够将文本对话脚本转化为自然流畅、富有表现力的语音,为AI播客、影视配音、新闻报道等诸多场景带来了革命性的改变。

MOSS-TTSD并非简单的文本转语音工具,它能够理解对话的语境,准确捕捉对话中的韵律、语调等微妙之处。更令人称赞的是,它支持零样本多说话人音色克隆,这意味着无需大量的语音样本,即可根据对话脚本生成准确的对话者切换语音,极大地降低了语音合成的门槛。

MOSS-TTSD

MOSS-TTSD模型主要有以下几个核心功能:

  1. 高表现力对话语音生成:MOSS-TTSD能够将书面的对话脚本转化为栩栩如生的口语表达,它不仅仅是简单地“念”出文字,而是能够捕捉到对话中应有的情感、语气和节奏,使得生成的语音更贴近自然人声,富有感染力。这对于需要高度拟真语音的应用场景,如AI角色扮演、有声书制作等,具有重要意义。

  2. 零样本多说话人音色克隆:这是MOSS-TTSD的一大亮点。传统的语音克隆技术往往需要大量的目标说话人语音数据进行训练,而MOSS-TTSD打破了这一限制。它能够根据少量的参考语音,甚至无需额外样本,即可实现对多个说话人音色的精准克隆。这意味着,即使你没有专业的录音设备和大量的语音数据,也能轻松地让AI模仿特定人物的声音进行对话,这在影视配音、游戏开发等领域具有广阔的应用前景。

  3. 中英双语支持:MOSS-TTSD支持中文和英文两种语言,这使得它能够服务于更广泛的用户群体。无论是制作中文播客,还是英文有声书,MOSS-TTSD都能胜任。更重要的是,它在处理不同语言时,能够保持语音的自然度和表现力,不会出现生硬或机械的现象。

  4. 长篇语音生成:传统的语音合成技术在处理长文本时,往往需要将文本分割成 छोटे片段,然后逐一合成,最后再将这些片段拼接起来。这种方法容易导致语音不连贯、过渡不自然等问题。MOSS-TTSD通过采用低比特率编解码器和优化的训练框架,能够一次性生成超长语音,避免了拼接语音片段带来的不自然感,保证了语音的流畅性和完整性。这对于制作长篇有声书、访谈节目等应用场景至关重要。

  5. 完全开源且商业就绪:MOSS-TTSD的另一大优势在于其完全开源的特性。这意味着开发者可以免费获取模型的权重、推理代码和API接口,并将其应用于商业用途。这种开放的姿态,无疑将极大地促进MOSS-TTSD的普及和应用,吸引更多的开发者参与到语音生成技术的研究和创新中来。

MOSS-TTSD的技术原理是其强大功能的基石。该模型基于Qwen3-1.7B-base模型进行续训练,并采用了离散化语音序列建模方法。具体来说,MOSS-TTSD通过八层RVQ(Residual Vector Quantization)码本对语音进行离散化处理,将连续的语音信号转换为离散的token序列。这些token序列通过自回归加Delay Pattern的方式生成,最后通过Tokenizer的解码器将token还原为语音。

核心创新在于其XY-Tokenizer,这是一个专门设计的语音离散化编码器。XY-Tokenizer采用双阶段多任务学习方式训练:

在第一阶段,模型同时进行自动语音识别(ASR)任务和重建任务。这使得编码器在编码语义信息的同时,能够保留粗粒度的声学信息,为后续的语音合成打下坚实的基础。

在第二阶段,模型固定编码器和量化层,只训练解码器部分。通过重建损失和GAN损失,模型能够补充细粒度的声学信息,进一步提升语音的质量和自然度。

得益于XY-Tokenizer的创新设计,MOSS-TTSD在1kbps的比特率和12.5Hz的帧率下,能够同时建模语义和声学信息,性能超越其他同类Codec。

MOSS-TTSD的训练过程也颇具特色。研究团队使用了约100万小时的单说话人语音数据和40万小时的对话语音数据进行训练。为了确保训练数据的质量,他们设计了高效的数据处理流水线,从海量原始音频中筛选出高质量的单人语音和多人对话语音,并进行标注。此外,模型还进行了TTS预训练,使用了110万小时的中英文TTS数据,显著增强了语音的韵律和表现力。

MOSS-TTSD基于超低比特率的Codec,支持最长960秒的音频生成。这意味着,它可以一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。这对于需要长时间连续语音输出的应用场景,如长篇访谈、有声书制作等,具有重要的价值。

MOSS-TTSD的开源项目地址如下:

MOSS-TTSD的应用场景十分广泛,几乎涵盖了所有需要语音合成的领域。

  1. AI 播客制作:MOSS-TTSD能够生成自然流畅的对话语音,非常适合用于AI播客的制作。它可以模拟真实的对话场景,生成高质量的播客内容,为听众带来更加沉浸式的收听体验。想象一下,你可以利用MOSS-TTSD轻松创建出一个由AI主持的播客节目,内容涵盖科技、文化、娱乐等各个领域,而且每个角色的声音都独具特色,富有表现力。

  2. 影视配音:MOSS-TTSD支持中英双语的高表现力对话语音生成,并且能够进行零样本音色克隆,这使得它非常适用于影视作品中的对话配音。例如,在一些低成本的独立电影制作中,可以利用MOSS-TTSD快速生成角色的配音,而无需聘请专业的配音演员。此外,MOSS-TTSD还可以用于修复老电影中的损坏音轨,或者为外语电影制作高质量的中文配音。

  3. 长篇访谈:MOSS-TTSD支持最长960秒的音频生成,能够一次性生成超长语音,避免了拼接语音片段之间的不自然过渡,非常适合长篇访谈的语音生成。这意味着,你可以利用MOSS-TTSD将冗长的文字访谈稿转化为生动自然的语音访谈节目,让听众在轻松愉悦的氛围中了解嘉宾的故事和观点。

  4. 新闻报道:在新闻报道中,MOSS-TTSD可以生成自然的对话式语音,用于播报新闻内容,提升新闻的吸引力。例如,一些新闻机构可以利用MOSS-TTSD创建一个24小时不间断播报的AI新闻频道,或者为视觉障碍人士提供语音新闻服务。通过MOSS-TTSD生成的语音新闻,不仅能够准确传递信息,而且能够保持较高的可听性和趣味性。

  5. 电商直播:MOSS-TTSD可以用于数字人对话带货等电商直播场景,通过生成自然的对话语音来吸引观众。想象一下,一个由AI驱动的数字人主播,用流畅自然的语音向你介绍商品,与你互动交流,回答你的问题,这将会是一种全新的购物体验。MOSS-TTSD的应用,将极大地提升电商直播的效率和趣味性,为商家带来更多的销售机会。

总而言之,清华大学开源的MOSS-TTSD口语对话语音生成模型,凭借其卓越的性能和广泛的应用前景,正在深刻地改变着语音合成领域。它不仅为开发者提供了一个强大的工具,也为我们打开了一扇通往未来语音世界的大门。