OmniAudio:阿里通义AI如何重塑空间音频体验?

1

在科技日新月异的今天,空间音频技术正逐渐走进我们的视野。阿里巴巴通义实验室语音团队推出的OmniAudio,便是一项引人注目的创新。它利用人工智能技术,能够从360°视频中生成具有空间感的音频(FOA),为虚拟现实、沉浸式娱乐等领域带来更加逼真的音频体验。这种技术不仅解决了传统视频音频生成技术的局限性,还为未来的音频应用开辟了新的可能性。

OmniAudio的核心功能

OmniAudio最核心的功能在于其生成空间音频的能力。传统的音频技术往往难以捕捉声音的方向性,而OmniAudio通过生成FOA(First-Order Ambisonics)音频,能够实现对声音的精准定位和3D还原。FOA是一种标准的3D空间音频格式,它使用四个通道(W、X、Y、Z)来表示声音。其中,W通道负责捕捉整体的声压,而X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这种设计使得OmniAudio在用户头部旋转时,依然能够保持声音定位的准确性。

OmniAudio

除了生成空间音频,OmniAudio还能显著提升沉浸式体验。在虚拟现实和沉浸式娱乐领域,声音的真实感至关重要。OmniAudio的出现,解决了传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求的问题。通过与视觉内容的高度同步,OmniAudio能够让用户在虚拟环境中获得更加逼真的听觉体验,从而增强整体的沉浸感。

技术原理:自监督学习与双分支视频表示

OmniAudio的技术原理主要包括两个阶段:自监督的coarse-to-fine流匹配预训练,以及基于双分支视频表示的有监督微调。这两个阶段协同工作,使得OmniAudio能够从360°视频中生成高质量的空间音频。

自监督的Coarse-to-Fine流匹配预训练

由于真实的FOA数据相对稀缺,研究团队首先利用大规模的非空间音频资源(如FreeSound、AudioSet、VGGSound等)进行自监督学习。他们将立体声转换为“伪FOA”格式,其中W通道为左右声道之和,X通道为左右声道之差,Y、Z通道置零。这种转换方法虽然简单,但为后续的模型训练提供了足够的数据基础。

在模型训练过程中,研究团队将转换后的“伪FOA”音频送入四通道VAE编码器,获得潜在表示。然后,以一定的概率对这些潜在表示进行随机时间窗掩码,并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这个阶段的学习过程,使得模型能够掌握通用的音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。

基于双分支视频表示的有监督微调

在完成自监督预训练后,研究团队开始使用真实的FOA音频数据进行有监督微调。在这个阶段,他们继续沿用掩码流匹配的训练框架,但此时模型的全部注意力都集中在四通道的空间特性上。通过对真实FOA潜在序列进行更高概率的掩码,研究团队强化了模型对声源方向(W/X/Y/Z四通道之间的互补关系)的表征能力,从而在解码端提升了对高保真空间音频细节的重建效果。

为了更好地结合视觉信息,研究团队还采用了双分支视频编码器。对于输入的360°全景视频,他们使用冻结的MetaCLIP-Huge图像编码器提取全局特征;同时,从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征经过最大池化后作为Transformer的全局条件,局部特征经过时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。

通过这种双分支结合的方式,OmniAudio能够充分利用视觉信息,从而生成与360°视频高度对齐、具备精确方向感的四通道空间音频。在微调过程中,研究团队在保持预训练初始化参数大致走向的前提下,高效地微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后,在推理阶段只需采样学得的速度场,再经VAE解码器恢复波形,就能输出高质量的空间音频。

OmniAudio的应用前景

OmniAudio作为一项创新的空间音频生成技术,具有广阔的应用前景。它可以被应用于虚拟现实(VR)和沉浸式体验、360°视频配乐、智能语音助手以及机器人和自动驾驶领域。在这些领域,OmniAudio都能够发挥其独特的优势,为用户带来更加真实、自然的音频体验。

虚拟现实(VR)和沉浸式体验

在VR领域,OmniAudio能够为VR内容生成与视觉场景高度匹配的空间音频,从而增强用户的沉浸感。想象一下,当用户戴上VR头显,置身于一个虚拟的森林中时,他们不仅能够看到逼真的树木、阳光,还能够听到鸟鸣、风声等各种环境声音。这些声音不仅具有空间感,而且与视觉场景高度同步,从而让用户感觉仿佛真的置身于森林之中。这种沉浸式的体验,是传统音频技术难以实现的。

360°视频配乐

对于360°全景视频,OmniAudio可以自动生成沉浸式音效,使观众在观看视频时能够获得更真实的听觉体验。传统的视频配乐往往是二维的,无法与360°全景视频的沉浸感相匹配。而OmniAudio生成的空间音频,能够根据视频内容的视角变化,动态地调整声音的方向和距离感,从而让观众感觉仿佛置身于视频场景之中。

智能语音助手

OmniAudio还可以被集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。通过OmniAudio,智能语音助手不仅能够听懂用户的指令,还能够根据用户的方位,提供更加个性化的服务。例如,当用户在厨房时,智能音箱可以自动播放烹饪相关的音频内容;当用户在客厅时,智能音箱可以自动播放娱乐相关的音频内容。这种智能化的交互方式,能够大大提升用户的使用体验。

机器人和自动驾驶领域

在机器人和自动驾驶领域,OmniAudio可以为这些系统提供更准确的声音定位和环境感知。例如,在自动驾驶汽车中,OmniAudio可以帮助车辆识别周围的车辆、行人等,从而提高行驶的安全性。在机器人领域,OmniAudio可以帮助机器人识别用户的语音指令,并根据声音的来源,判断用户的方位,从而更好地完成任务。

挑战与未来展望

尽管OmniAudio在空间音频生成领域取得了显著的进展,但仍然面临着一些挑战。例如,如何进一步提高生成音频的质量和真实感?如何降低计算成本,使其能够更好地应用于移动设备?如何更好地结合视觉信息,从而生成更加逼真的音频?这些问题都需要研究人员不断探索和解决。

展望未来,随着人工智能技术的不断发展,OmniAudio有望在更多的领域得到应用。例如,在游戏领域,OmniAudio可以为游戏玩家带来更加沉浸式的音频体验;在教育领域,OmniAudio可以为在线课程提供更加生动的音频内容;在医疗领域,OmniAudio可以为听力障碍患者提供更加清晰的音频辅助。我们有理由相信,OmniAudio将在未来的音频领域发挥越来越重要的作用。

OmniAudio的出现,是人工智能技术在音频领域的一次重要突破。它不仅解决了传统音频技术的局限性,还为未来的音频应用开辟了新的可能性。随着技术的不断发展,我们有理由期待OmniAudio在未来的发展中,能够为我们带来更多的惊喜。