阿里OmniAudio:360°视频空间音频生成技术突破,沉浸式体验新纪元?

2

在数字时代,声音的革新正悄然发生。阿里巴巴通义实验室语音团队推出的OmniAudio,正是这场变革中的先锋。这项技术能够从360°视频中生成空间音频(FOA),为虚拟现实(VR)和沉浸式娱乐带来前所未有的真实感。本文将深入探讨OmniAudio的技术原理、功能特性及其应用前景,带您领略空间音频的魅力。

OmniAudio:空间音频的新纪元

OmniAudio的诞生,旨在解决传统视频到音频生成技术无法满足沉浸式体验对3D声音定位的需求。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监督学习;以及基于双分支视频表示的有监督微调,强化模型对声源方向的表征能力。

OmniAudio

OmniAudio的核心功能

OmniAudio的核心在于其生成空间音频的能力。FOA(First-Order Ambisonics)是一种标准的3D空间音频格式,能够捕捉声音的方向性,实现真实的3D音频再现。它采用四个通道(W、X、Y、Z)来表示声音,其中W通道负责捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这意味着,无论头部如何旋转,声音的定位都能够保持准确,从而带来更加自然和沉浸式的听觉体验。

更重要的是,OmniAudio为虚拟现实和沉浸式娱乐带来了全新的可能性。传统的视频到音频生成技术主要生成非空间音频,这在很大程度上限制了沉浸式体验的实现。而OmniAudio通过生成空间音频,解决了这一难题,使得用户在VR环境中能够感受到更加真实的声音定位和空间感。

技术原理:从自监督预训练到双分支视频表示

OmniAudio的技术原理主要包括两个关键阶段:自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调。这两个阶段相互配合,共同实现了从360°视频生成高质量空间音频的目标。

1. 自监督的coarse-to-fine流匹配预训练

由于真实FOA数据的稀缺性,研究团队巧妙地利用大规模非空间音频资源(如FreeSound、AudioSet、VGGSound等),将立体声转换为“伪FOA”格式。具体来说,W通道为左右声道之和,X通道为左右声道之差,Y、Z通道置零。这种方法虽然简单,但却有效地扩展了训练数据集,为后续模型的训练奠定了基础。

在模型训练方面,研究团队将转换后的“伪FOA”音频送入四通道VAE编码器,获得潜在表示。然后,以一定概率进行随机时间窗掩码,并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。

2. 基于双分支视频表示的有监督微调

在完成自监督预训练后,研究团队开始利用真实的FOA音频数据进行有监督微调。与预训练阶段不同的是,微调阶段模型的全部注意力都集中在四通道的空间特性上。

为了强化模型对声源方向的表征能力,研究团队通过对真实FOA潜在序列进行更高概率的掩码,在解码端提升了对高保真空间音频细节的重建效果。此外,研究团队还将模型与双分支视频编码器结合。针对输入的360°全景视频,使用冻结的MetaCLIP-Huge图像编码器提取全局特征;同时,从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征经最大池化后作为Transformer的全局条件,局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。

在微调过程中,研究团队在保持预训练初始化参数大致走向的前提下,高效微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后,在推理阶段只需采样学得的速度场,再经VAE解码器恢复波形,就能输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

OmniAudio的应用场景

OmniAudio的应用前景十分广阔,几乎涵盖了所有需要沉浸式音频体验的领域。

  1. 虚拟现实(VR)和沉浸式体验:这是OmniAudio最直接的应用领域。通过为VR内容生成与视觉场景高度匹配的空间音频,OmniAudio能够极大地增强用户的沉浸感,使得VR体验更加真实和引人入胜。

  2. 360°视频配乐:随着360°视频的普及,对高质量空间音频的需求也日益增长。OmniAudio可以为360°全景视频自动生成沉浸式音效,使观众在观看视频时能够获得更真实的听觉体验。

  3. 智能语音助手:OmniAudio可以集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等。通过空间音频的加持,智能语音助手能够更加准确地识别用户的语音指令,并提供更加自然和人性化的反馈。

  4. 机器人和自动驾驶领域:在机器人和自动驾驶领域,准确的声音定位和环境感知至关重要。OmniAudio可以应用于这些领域,为这些系统提供更准确的声音定位和环境感知能力,从而提高其安全性和可靠性。

结语

OmniAudio作为阿里巴巴通义实验室语音团队的最新研究成果,无疑为空间音频领域带来了新的突破。其独特的技术原理和广泛的应用前景,预示着它将在未来的虚拟现实、沉浸式娱乐以及智能设备等领域发挥重要作用。随着技术的不断发展和完善,我们有理由相信,OmniAudio将为我们带来更加真实、自然的听觉体验,开启空间音频的新篇章。

通过自监督学习和双分支视频编码器的结合,OmniAudio能够从360°视频中生成高质量的空间音频,为用户带来前所未有的沉浸式体验。无论是在虚拟现实、360°视频配乐,还是智能语音助手和机器人等领域,OmniAudio都展现出了巨大的应用潜力。随着技术的不断发展,我们有理由期待OmniAudio在未来能够为我们带来更多的惊喜。