Stability AI开源Stable Audio Open Small:手机端AI音频创作新纪元

2

在人工智能领域,音频生成技术正经历着前所未有的变革。近日,Stability AI与芯片巨头Arm联手推出了一款颠覆性的开源模型——Stable Audio Open Small。这款模型专为移动设备优化,仅有341M的参数量,却能在Arm CPU上本地运行,生成高质量的立体声音频。这标志着AI音频生成技术向边缘计算和移动设备迈出了重要一步,为音频创作带来了前所未有的便利。

轻量高效,移动端本地生成的技术亮点

Stable Audio Open Small是基于Stability AI之前发布的Stable Audio Open模型深度优化而来。通过精心的设计和优化,其参数量从1.1B大幅压缩至341M,从而显著降低了计算需求。这使得模型能够在资源受限的移动设备上流畅运行,而无需依赖强大的云端服务器。

更令人 впечатляющим的是,借助Arm的KleidiAI库的支持,Stable Audio Open Small能够在智能手机上以不到8秒的速度生成最长11秒的44.1kHz立体声音频。这意味着用户可以随时随地进行音频创作,即使在没有网络连接的情况下也能进行。

该模型采用了先进的潜在扩散模型(Latent Diffusion Model),并结合了T5文本嵌入和基于变压器的扩散架构(DiT)。用户只需输入简单的英文文本提示,例如“128BPM电子鼓循环”或“海浪拍岸的声音”,即可生成各种音效、鼓点、乐器片段或环境音。这种基于文本的音频生成方式极大地降低了音频创作的门槛,让更多的人能够参与到音频创作中来。

image.png

AIbase的测试结果表明,Stable Audio Open Small在生成短音频片段时能够展现出丰富的细节。这使得它尤其适合音效设计和音乐制作等领域。无论是专业的音频工程师还是业余的音乐爱好者,都可以从中受益。

开源与许可:赋能开发者与创作者

Stability AI一直致力于推动AI技术的普及和 democratisation。Stable Audio Open Small的开源正是这一理念的体现。该模型遵循Stability AI社区许可,对研究人员、个人用户以及年收入低于100万美元的企业免费开放。这意味着大量的开发者可以免费使用该模型进行研究和创新。

模型权重和代码已经在Hugging Face和GitHub上发布,方便开发者获取和使用。对于大型企业,Stability AI则采取了企业许可的策略,以确保技术在商业化中的可持续性。这种分级许可策略既降低了技术门槛,又保证了技术的商业价值。

值得一提的是,Stable Audio Open Small的训练数据全部来自Freesound和Free Music Archive的免版税音频。这确保了模型的版权合规性,避免了像Suno和Udio等竞争对手那样因使用受版权保护内容而引发的风险。在版权意识日益增强的今天,这一点尤为重要。

性能与创新:ARC后训练提升效率

为了进一步提升模型的性能,Stability Audio Open Small引入了对抗性相对对比(ARC)后训练方法。这种方法无需传统的蒸馏或无分类器指导,而是结合相对对抗损失和对比鉴别器损失,从而显著提升了生成速度和提示遵循性。

研究结果显示,在H100 GPU上,Stable Audio Open Small生成12秒音频仅需75毫秒,而在移动设备上则约为7秒。此外,该模型在CLAP条件多样性得分上达到了0.41,位居同类模型之首。这意味着它可以生成更多样化的音频内容。

在主观测试中,Stable Audio Open Small在多样性(4.4)、质量(4.2)和提示遵循性(4.2)上均获得了高分。这充分展现了其在生成音效和节奏片段方面的优异表现。其Ping-Pong采样技术进一步优化了少步推理,兼顾了速度与质量。

行业意义:推动移动AI与创意民主化

Stable Audio Open Small的发布标志着AI音频生成技术向移动端和边缘计算的转型。与依赖云处理的竞争对手不同,该模型的离线运行能力为移动场景(如实时音效生成)提供了便利。这意味着用户可以在各种场景下使用该模型进行音频创作,而无需担心网络连接问题。

AIbase分析认为,这种技术普及将重塑音频创作生态,让普通用户也能参与专业级音效设计。未来,我们可能会看到更多的人使用智能手机进行音频创作,从而涌现出大量的创新作品。

当然,Stable Audio Open Small也存在一些局限性。例如,它目前仅支持英文提示,对非西方音乐风格的表现较弱,且无法生成逼真的人声或完整歌曲。不过,Stability AI表示,未来将优化多语言支持和音乐风格多样性,以提升全球适用性。

Stable Audio Open Small的局限与未来展望

尽管Stable Audio Open Small在移动端音频生成方面取得了显著进展,但仍存在一些需要改进的地方。模型目前主要支持英文文本提示,对于其他语言的支持相对有限。这限制了其在全球范围内的应用。

此外,模型在生成非西方音乐风格的音频时,效果可能不够理想。这需要进一步的模型训练和优化,以提高其对不同文化背景音乐的理解和生成能力。

另一个挑战是生成逼真的人声。目前,Stable Audio Open Small还无法生成高质量的人声,这限制了其在某些应用场景下的使用。未来,需要进一步研究和开发相关技术,以提高人声生成的真实感和表现力。

最后,模型目前还无法生成完整的歌曲。虽然它可以生成各种音效、鼓点和乐器片段,但将这些片段组合成一首完整的歌曲仍然需要人工干预。未来,需要开发更智能的算法,以实现自动化的歌曲生成。

尽管存在这些局限性,但Stable Audio Open Small的潜力仍然是巨大的。随着技术的不断发展,相信这些问题都将得到解决。未来,我们有望看到更加强大、更加智能的移动端音频生成工具,为音频创作带来更多的可能性。

Stable Audio Open Small的应用前景

Stable Audio Open Small的出现,为音频创作领域带来了革命性的变革。它不仅降低了音频创作的门槛,还为移动设备带来了强大的音频生成能力。可以预见,该模型将在以下几个方面发挥重要作用:

  • 游戏开发: 游戏开发者可以使用Stable Audio Open Small快速生成各种游戏音效,从而提高开发效率和降低成本。
  • 短视频创作: 短视频创作者可以使用该模型为视频添加各种背景音乐和音效,从而提升视频的吸引力。
  • 音乐制作: 音乐制作人可以使用该模型生成各种乐器片段和鼓点,从而激发创作灵感。
  • 教育领域: 教师可以使用该模型为课程制作各种教学音频,从而提高教学效果。
  • 辅助功能: 该模型还可以用于开发各种辅助功能,例如为视障人士生成环境音描述,帮助他们更好地了解周围的世界。

总之,Stable Audio Open Small的应用前景非常广阔。随着技术的不断成熟和完善,相信它将在各个领域发挥越来越重要的作用。

结论:开启移动音频创作的新篇章

Stable Audio Open Small的开源,无疑是AI音频生成领域的一项重大突破。它不仅展示了AI技术在移动设备上的强大潜力,也为音频创作的 democratisation 开启了新的篇章。我们有理由相信,在Stability AI和Arm等技术巨头的推动下,AI音频生成技术将迎来更加美好的未来。