在人工智能领域,语音合成技术日新月异,其中,清华大学语音与语言实验室(与腾讯AI Lab合作)开源的MOSS-TTSD模型,无疑是口语对话语音生成领域的一颗璀璨明珠。该模型能够将文本对话脚本转化为自然流畅、富有表现力的对话语音,并且支持中英文双语生成,为AI播客、影视配音、新闻报道等多种应用场景提供了强大的技术支持。
MOSS-TTSD模型的卓越之处在于其强大的功能。它不仅能够生成高表现力的对话语音,准确捕捉对话中的韵律、语调等特性,还支持零样本多说话人音色克隆,这意味着无需额外的语音样本,即可根据对话脚本生成准确的对话者切换语音,实现两位对话者的音色克隆。此外,该模型还支持中英双语,能够一次性生成超长语音,避免了拼接语音片段的不自然过渡。更重要的是,MOSS-TTSD完全开源且商业友好,模型权重、推理代码和API接口均已开源,支持免费商业使用,这无疑降低了技术应用的门槛,为更多开发者和企业提供了便利。
MOSS-TTSD的技术原理是其强大功能的基石。该模型基于Qwen3-1.7B-base模型进行续训练,采用离散化语音序列建模方法。具体来说,模型通过八层RVQ(Residual Vector Quantization)码本对语音进行离散化处理,将连续的语音信号转换为离散的token序列。这些token序列通过自回归加Delay Pattern的方式生成,最后通过Tokenizer的解码器将token还原为语音。这种离散化语音建模方法能够有效地捕捉语音的细微特征,从而生成更加自然流畅的语音。
核心创新之一是XY-Tokenizer,这是一种专门设计的语音离散化编码器。XY-Tokenizer采用双阶段多任务学习方式训练。在第一阶段,训练自动语音识别(ASR)任务和重建任务,让编码器在编码语义信息的同时保留粗粒度的声学信息。在第二阶段,固定编码器和量化层,仅训练解码器部分,通过重建损失和GAN损失补充细粒度声学信息。这种双阶段多任务学习方式使得XY-Tokenizer能够在低比特率下同时建模语义和声学信息,性能优于其他同类Codec。
在数据处理与预训练方面,MOSS-TTSD使用了约100万小时的单说话人语音数据和40万小时的对话语音数据进行训练。为了确保数据的质量,研究团队设计了高效的数据处理流水线,从海量原始音频中筛选出高质量的单人语音和多人对话语音,并进行标注。此外,模型还进行了TTS预训练,使用110万小时的中英文TTS数据显著增强了语音韵律和表现力。
MOSS-TTSD还具备强大的长语音生成能力。基于超低比特率的Codec,MOSS-TTSD支持最长960秒的音频生成,能够一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。这对于需要生成长篇对话语音的应用场景来说,无疑是一个巨大的优势。
MOSS-TTSD的应用场景十分广泛。在AI播客制作方面,MOSS-TTSD能够生成自然流畅的对话语音,模拟真实的对话场景,生成高质量的播客内容。在影视配音方面,模型支持中英双语的高表现力对话语音生成,并能进行零样本音色克隆,适用于影视作品中的对话配音。在长篇访谈方面,MOSS-TTSD能够一次性生成超长语音,避免了拼接语音片段之间的不自然过渡,非常适合长篇访谈的语音生成。此外,在新闻报道中,MOSS-TTSD可以生成自然的对话式语音,用于播报新闻内容,提升新闻的吸引力。在电商直播领域,该模型还可以用于数字人对话带货等场景,通过生成自然的对话语音来吸引观众。
MOSS-TTSD的开源,无疑将推动口语对话语音生成技术的发展和应用。我们有理由相信,在MOSS-TTSD的助力下,未来的语音交互将更加自然、流畅和智能,为人们的生活带来更多便利和乐趣。
总而言之,MOSS-TTSD以其强大的功能、先进的技术原理和广泛的应用前景,成为了口语对话语音生成领域的佼佼者。它的开源和商业友好,将进一步推动语音合成技术的发展,并为各行各业带来更多的创新应用。