在人工智能音乐创作领域,腾讯AI Lab开源的SongGeneration模型无疑是一项重要的突破。该模型旨在解决AI音乐生成过程中长期存在的音质、音乐性以及生成速度等关键问题,为音乐创作带来全新的可能性。SongGeneration并非简单的辅助工具,而是朝着“智能共创”的方向发展,有望在多个领域实现商业应用。
SongGeneration的核心功能
- 文本控制
文本控制是SongGeneration的一大亮点。用户只需输入简单的关键词文本,例如“开心”、“流行”,AI便能迅速生成与之风格和情绪相符的完整音乐作品。这种文本到音乐的转换能力,极大地降低了音乐创作的门槛,让非专业人士也能轻松创作出自己想要的音乐。
- 风格跟随
风格跟随功能允许用户上传一段10秒以上的参考音频,AI模型便能学习并生成风格一致的全长新曲。这一功能对于音乐人来说非常实用,可以快速生成各种流派的音乐,并保持风格的统一性。无论是摇滚、流行还是古典,SongGeneration都能轻松驾驭。
- 多轨生成
SongGeneration具备自动生成分离的人声与伴奏轨道的能力。更重要的是,它能保证旋律、结构、节奏与配器的高度匹配,使得人声和伴奏完美融合,呈现出高质量的音乐作品。这一功能为后期混音和编辑提供了极大的便利。
- 音色跟随
音色跟随功能是SongGeneration的一大创新。通过分析参考音频的音色,AI模型可以实现“音色克隆”级别的人声表现,生成自然且富有情感的歌声。这意味着,用户可以使用自己喜欢的歌手的音色来演唱自己创作的歌曲,极大地丰富了音乐创作的可能性。
SongGeneration的技术原理
SongGeneration的技术原理主要包括以下几个方面:
- LeLM(Language Model)
LeLM采用了混合标记(Mixed Tokens)和双轨标记(Dual-Track Tokens)相结合的方式,代表人声和伴奏的组合音频。混合标记用于捕捉歌曲的整体结构和节奏,确保人声与伴奏的和谐;双轨标记则分别编码人声和伴奏,用于生成高质量的音频细节。LeLM能够并行预测混合标记和双轨标记,避免不同标记类型之间的干扰,从而提高生成质量和效率。
- 音乐编解码器(Music Codec)
音乐编解码器由编码器(Encoder)和解码器(Decoder)组成。编码器负责将音乐音频提取为混合标记和双轨标记,解码器则将双轨标记重建为高保真的音乐音频。这一过程保证了生成的歌曲具有高质量的音频表现,使得AI音乐在音质上有了显著提升。
- 多偏好对齐(Multi-Preference Alignment)
多偏好对齐技术旨在处理多样化的人类偏好,提高模型在音乐性、指令遵循和人声与伴奏和谐方面的表现。通过直接偏好优化(DPO)和半自动数据构建,SongGeneration能够支持歌词对齐、提示一致性、音乐性等多个维度的偏好对齐,从而提升生成歌曲的整体质量。
- 三阶段训练范式
SongGeneration采用了三阶段训练范式,包括预训练(Pre-training)、模块扩展训练(Modular Extension Training)和多偏好对齐(Multi-Preference Alignment)。
- 预训练:在大规模音乐数据上进行预训练,对齐不同输入模态和混合标记。
- 模块扩展训练:进一步训练AR解码器,建模双轨标记,提升音质和音乐性。
- 多偏好对齐:基于DPO后训练,优化模型在多维度偏好上的表现。
这种三阶段训练范式使得SongGeneration在音质、音乐性和用户偏好等方面都达到了更高的水平。
SongGeneration的核心优势
SongGeneration之所以能够在众多AI音乐生成模型中脱颖而出,主要得益于其以下核心优势:
- 低比特率音乐编解码
SongGeneration实现了25Hz极低码率和0.35kbps超低比特率下的高质量音乐重建,从而减轻了语言模型建模的负担。这意味着,SongGeneration能够在保证音质的前提下,更加高效地生成音乐。
- 多类别token并行预测
基于“混合优先,双轨其次”的策略,SongGeneration能够避免token相互干扰,从而提升音质和音乐性。这种并行预测的方式,使得AI模型能够更好地捕捉音乐的复杂结构和细节。
- 多维度人类偏好对齐
通过对齐音乐性、歌词对齐、提示一致性等偏好,SongGeneration能够提升模型效果和鲁棒性。这意味着,AI模型能够更好地理解用户的需求,生成更加符合用户期望的音乐作品。
- 三阶段训练范式
SongGeneration采用的预训练、模块化扩展训练、多偏好对齐训练等三阶段训练范式,能够优化音乐生成效果,使得AI模型在音质、音乐性和用户偏好等方面都达到了更高的水平。
SongGeneration的性能表现
SongGeneration在性能表现方面也十分出色。在与三款商业模型(Suno v4.5、海绵音乐、Mureka O1)和四款开源模型(YuE、DiffRhythm、ACE-Step、SongGen)的全方位主客观评测对比中,SongGeneration在开源模型中稳居第一,在商业模型中位列前茅,展现出显著的竞争优势。
在客观测评中,SongGeneration在内容欣赏度(CE)、内容实用性(CU)和制作质量(PQ)三个关键维度上均位列榜首,制作复杂度(PC)也处于领先位置。这意味着,SongGeneration不仅能够生成高质量的音乐,还能够满足用户的实际需求。
在主观评测中,SongGeneration在歌词准确度上超越了包括Suno在内的众多大模型,体现了模型在语音与文本对齐能力上的显著优势,以及在内容生成细节处理方面的成熟度。这意味着,SongGeneration生成的音乐在歌词和旋律的匹配度上更高,能够更好地表达歌曲的情感。
SongGeneration的应用场景
SongGeneration的应用场景非常广泛,几乎涵盖了音乐创作的各个方面:
- 音乐创作
SongGeneration为音乐人和制作人提供高质量歌曲草稿,节省创作时间,助力他们专注于核心创作,激发创意。这意味着,音乐人可以利用AI模型快速生成各种风格的音乐,并将更多的时间和精力投入到歌曲的创意和情感表达上。
- 娱乐产业
在影视、游戏、广告等娱乐领域,SongGeneration可以快速生成契合需求的配乐,增强作品的沉浸感与吸引力,丰富音乐内容。这意味着,娱乐产业可以利用AI模型快速生成各种风格的配乐,从而提升作品的整体质量。
- 教育领域
作为音乐教育工具,SongGeneration可以帮助学生理解音乐基础知识,激发创造力,辅助在线课程提供示例歌曲,提升教学效果。这意味着,学生可以利用AI模型创作自己的音乐,从而更好地理解音乐的本质。
- 广告和营销
SongGeneration可以为广告和品牌生成贴合主题的音乐,提升广告吸引力和品牌认同感,助力品牌营销。这意味着,广告商可以利用AI模型快速生成各种风格的广告音乐,从而提升广告的传播效果。
- 个人娱乐
普通用户可以使用SongGeneration创作个性化歌曲,表达情感,分享社交平台,增添娱乐互动乐趣。这意味着,即使没有音乐基础,用户也可以通过AI模型创作自己的歌曲,并与朋友分享。
腾讯AI Lab开源的SongGeneration模型,无疑为AI音乐创作领域带来了新的机遇。随着技术的不断发展,我们有理由相信,AI音乐将在未来发挥更加重要的作用,为音乐创作带来更多的可能性。