SongGeneration:腾讯AI Lab开源的AI音乐生成大模型技术解析

4

在人工智能音乐创作领域,腾讯AI Lab开源的SongGeneration模型无疑是一项引人注目的进展。它不仅解决了音质、音乐性和生成速度等关键问题,还在多个维度上超越了多数开源模型,部分指标甚至能与商业闭源模型相媲美。本文将深入探讨SongGeneration的技术原理、核心优势、性能表现以及应用场景,带您全面了解这一AI音乐生成大模型。

SongGeneration:技术原理的深度剖析

SongGeneration的核心在于其独特的LLM-DiT融合架构,这一架构的精妙之处在于能够显著提升音质表现和生成速度。为了实现这一目标,SongGeneration采用了以下关键技术:

  • LeLM(Language Model): LeLM模型通过混合标记(Mixed Tokens)和双轨标记(Dual-Track Tokens)来代表人声和伴奏的组合音频。混合标记用于捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐统一;而双轨标记则分别编码人声和伴奏,用于生成高质量的音频细节。LeLM能够并行预测这两种标记,从而避免了不同标记类型之间的干扰,显著提高生成质量和效率。

LeLM模型

  • 音乐编解码器(Music Codec): 音乐编解码器由编码器(Encoder)和解码器(Decoder)组成。编码器负责将音乐音频提取为混合标记和双轨标记,而解码器则将双轨标记重建为高保真的音乐音频。这一过程确保了生成的歌曲具有卓越的音频表现,为听众带来极致的听觉享受。
  • 多偏好对齐(Multi-Preference Alignment): 为了更好地处理人类对音乐的偏好,SongGeneration采用了直接偏好优化(DPO)技术。该技术基于半自动数据构建和DPO后训练,能够处理多样化的人类偏好,从而提高模型在音乐性、指令遵循以及人声与伴奏和谐方面的表现。多维度偏好支持包括歌词对齐、提示一致性以及音乐性等多个维度,全面提升生成歌曲的整体质量。

多偏好对齐

  • 三阶段训练范式: SongGeneration的训练过程分为三个阶段:
    • 预训练(Pre-training): 在大规模音乐数据上进行预训练,使模型能够对齐不同的输入模态和混合标记。
    • 模块扩展训练(Modular Extension Training): 进一步训练AR解码器,建模双轨标记,从而提升音质和音乐性。
    • 多偏好对齐(Multi-Preference Alignment): 基于DPO后训练,优化模型在多维度偏好上的表现。

SongGeneration的核心优势

SongGeneration之所以能够在众多AI音乐生成模型中脱颖而出,得益于其独特的核心优势:

  1. 低比特率音乐编解码: SongGeneration能够实现25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,这大大减轻了语言模型建模的负担,使其能够更专注于音乐的结构和内容。
  2. 多类别token并行预测: 基于“混合优先,双轨其次”的策略,SongGeneration能够避免token之间的相互干扰,从而显著提升音质和音乐性。
  3. 多维度人类偏好对齐: 通过对齐音乐性、歌词对齐以及提示一致性等偏好,SongGeneration能够提升模型的效果和鲁棒性,使其能够更好地满足用户的需求。
  4. 三阶段训练范式: 预训练、模块化扩展训练以及多偏好对齐训练的结合,使SongGeneration能够优化音乐生成效果,从而创造出更加动听的音乐作品。

SongGeneration的卓越性能表现

SongGeneration在性能表现方面也令人印象深刻。在与三款商业模型(Suno v4.5、海绵音乐、Mureka O1)和四款开源模型(YuE、DiffRhythm、ACE-Step、SongGen)的对比评测中,SongGeneration在开源模型中稳居第一,在商业模型中也位列前茅,展现出强大的竞争优势。

在客观测评中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)也处于领先地位。而在主观评测中,SongGeneration在歌词准确度上超越了包括Suno在内的众多大模型,这充分体现了模型在语音与文本对齐能力上的显著优势,以及在内容生成细节处理方面的成熟度。

SongGeneration的应用场景

SongGeneration的应用场景非常广泛,涵盖了音乐创作、娱乐产业、教育领域、广告和营销以及个人娱乐等多个领域:

  • 音乐创作: SongGeneration为音乐人和制作人提供高质量的歌曲草稿,从而节省创作时间,助力他们专注于核心创作,激发创意灵感。
  • 娱乐产业: 在影视、游戏、广告等娱乐领域,SongGeneration能够快速生成契合需求的配乐,从而增强作品的沉浸感和吸引力,丰富音乐内容。
  • 教育领域: 作为音乐教育工具,SongGeneration能够帮助学生理解音乐基础知识,激发他们的创造力,并辅助在线课程提供示例歌曲,从而提升教学效果。
  • 广告和营销: SongGeneration能够为广告和品牌生成贴合主题的音乐,从而提升广告的吸引力和品牌认同感,助力品牌营销。
  • 个人娱乐: 普通用户可以使用SongGeneration创作个性化的歌曲,表达情感,并分享到社交平台,从而增添娱乐互动乐趣。

如何使用SongGeneration

如果您对SongGeneration感兴趣,可以通过以下方式进行体验:

总结

腾讯AI Lab开源的SongGeneration模型在AI音乐生成领域取得了显著的进展。它不仅在技术上有所突破,还在性能表现和应用场景方面展现出强大的实力。随着AI技术的不断发展,相信SongGeneration将在音乐创作领域发挥越来越重要的作用,为音乐人和爱好者带来更多的惊喜和可能性。通过其强大的文本控制、风格跟随和多轨生成功能,SongGeneration正在推动AI音乐创作从“辅助工具”迈向“智能共创”的新阶段,为音乐产业的未来发展注入新的活力。