阿里OmniAudio：360°视频空间音频生成技术突破，沉浸式体验新纪元？

在数字时代，声音的革新正悄然发生。阿里巴巴通义实验室语音团队推出的OmniAudio，正是这场变革中的先锋。这项技术能够从360°视频中生成空间音频（FOA），为虚拟现实（VR）和沉浸式娱乐带来前所未有的真实感。本文将深入探讨OmniAudio的技术原理、功能特性及其应用前景，带您领略空间音频的魅力。

OmniAudio：空间音频的新纪元

OmniAudio的诞生，旨在解决传统视频到音频生成技术无法满足沉浸式体验对3D声音定位的需求。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse-to-fine流匹配预训练，基于大规模非空间音频资源进行自监督学习；以及基于双分支视频表示的有监督微调，强化模型对声源方向的表征能力。

OmniAudio

OmniAudio的核心功能

OmniAudio的核心在于其生成空间音频的能力。FOA（First-Order Ambisonics）是一种标准的3D空间音频格式，能够捕捉声音的方向性，实现真实的3D音频再现。它采用四个通道（W、X、Y、Z）来表示声音，其中W通道负责捕捉整体声压，X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这意味着，无论头部如何旋转，声音的定位都能够保持准确，从而带来更加自然和沉浸式的听觉体验。

更重要的是，OmniAudio为虚拟现实和沉浸式娱乐带来了全新的可能性。传统的视频到音频生成技术主要生成非空间音频，这在很大程度上限制了沉浸式体验的实现。而OmniAudio通过生成空间音频，解决了这一难题，使得用户在VR环境中能够感受到更加真实的声音定位和空间感。

技术原理：从自监督预训练到双分支视频表示

OmniAudio的技术原理主要包括两个关键阶段：自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调。这两个阶段相互配合，共同实现了从360°视频生成高质量空间音频的目标。

1. 自监督的coarse-to-fine流匹配预训练

由于真实FOA数据的稀缺性，研究团队巧妙地利用大规模非空间音频资源（如FreeSound、AudioSet、VGGSound等），将立体声转换为“伪FOA”格式。具体来说，W通道为左右声道之和，X通道为左右声道之差，Y、Z通道置零。这种方法虽然简单，但却有效地扩展了训练数据集，为后续模型的训练奠定了基础。

在模型训练方面，研究团队将转换后的“伪FOA”音频送入四通道VAE编码器，获得潜在表示。然后，以一定概率进行随机时间窗掩码，并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异，实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律，为后续空间音频的精细化提供了基础。

2. 基于双分支视频表示的有监督微调

在完成自监督预训练后，研究团队开始利用真实的FOA音频数据进行有监督微调。与预训练阶段不同的是，微调阶段模型的全部注意力都集中在四通道的空间特性上。

为了强化模型对声源方向的表征能力，研究团队通过对真实FOA潜在序列进行更高概率的掩码，在解码端提升了对高保真空间音频细节的重建效果。此外，研究团队还将模型与双分支视频编码器结合。针对输入的360°全景视频，使用冻结的MetaCLIP-Huge图像编码器提取全局特征；同时，从同一视频中裁取FOV局部视角，同样通过该编码器获取局部细节表征。全局特征经最大池化后作为Transformer的全局条件，局部特征经时间上采样后与音频潜在序列逐元素相加，作为逐步生成过程中的局部条件。

在微调过程中，研究团队在保持预训练初始化参数大致走向的前提下，高效微调条件流场，从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后，在推理阶段只需采样学得的速度场，再经VAE解码器恢复波形，就能输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

OmniAudio的应用场景

OmniAudio的应用前景十分广阔，几乎涵盖了所有需要沉浸式音频体验的领域。

虚拟现实（VR）和沉浸式体验：这是OmniAudio最直接的应用领域。通过为VR内容生成与视觉场景高度匹配的空间音频，OmniAudio能够极大地增强用户的沉浸感，使得VR体验更加真实和引人入胜。
360°视频配乐：随着360°视频的普及，对高质量空间音频的需求也日益增长。OmniAudio可以为360°全景视频自动生成沉浸式音效，使观众在观看视频时能够获得更真实的听觉体验。
智能语音助手：OmniAudio可以集成到智能家居设备中，如智能音箱、智能家电等，实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等。通过空间音频的加持，智能语音助手能够更加准确地识别用户的语音指令，并提供更加自然和人性化的反馈。
机器人和自动驾驶领域：在机器人和自动驾驶领域，准确的声音定位和环境感知至关重要。OmniAudio可以应用于这些领域，为这些系统提供更准确的声音定位和环境感知能力，从而提高其安全性和可靠性。

结语

OmniAudio作为阿里巴巴通义实验室语音团队的最新研究成果，无疑为空间音频领域带来了新的突破。其独特的技术原理和广泛的应用前景，预示着它将在未来的虚拟现实、沉浸式娱乐以及智能设备等领域发挥重要作用。随着技术的不断发展和完善，我们有理由相信，OmniAudio将为我们带来更加真实、自然的听觉体验，开启空间音频的新篇章。

通过自监督学习和双分支视频编码器的结合，OmniAudio能够从360°视频中生成高质量的空间音频，为用户带来前所未有的沉浸式体验。无论是在虚拟现实、360°视频配乐，还是智能语音助手和机器人等领域，OmniAudio都展现出了巨大的应用潜力。随着技术的不断发展，我们有理由期待OmniAudio在未来能够为我们带来更多的惊喜。