Veo 3.1硬刚Sora 2:谷歌AI视频生成的新突破与局限

1

引言

AI视频生成领域正迎来新一轮的技术竞赛。北京时间10月16日,谷歌在Gemini API中发布了Veo 3.1和Veo 3.1 Fast付费预览版,这一举动立即引发了行业的高度关注。作为OpenAI Sora 2的直接竞争者,Veo 3.1不仅新增了音频功能,还在多个维度上进行了创新性尝试。本文将深入分析Veo 3.1的技术特点、实际表现、市场定位以及与竞品的对比,探讨AI视频生成技术的现状与未来。

Veo 3.1的三大核心创新

音画同步:从默片到有声电影的跨越

Veo 3.1最显著的突破在于实现了AI视频从默片到有声电影的转变。这一功能不仅要求AI能够实现声音与画面的统一,还要求AI能够更好地理解画面内容,并为其提供合适的配乐和音效。

在实际测试中,我们使用提示词"纽约街头正在下雨,突然一道闪电伴随雷声而来"进行测试。结果显示,Veo 3.1能够基本实现闪电与雷声的同步出现,且在细节处理上表现出色——车辆驶过水坑时,声音能够呈现出从远到近、从大到小的自然变化。

然而,当前Veo 3.1生成的视频片段时长仍较短,约6秒左右,与Sora 2可生成的10-20秒相比存在明显差距。此外,视频中只有部分元素呈现动态效果,其他部分如行人、树木等保持静止,导致整体画面出现一定违和感。

首尾画面控制:实现AI长视频生成的可能性

Veo 3.1引入的另一项创新功能是允许用户直接设定AI视频的开篇画面和结尾画面。这一功能不仅能够实现短视频之间的自然过渡,还能进一步控制AI视频的首尾观感。更关键的是,Veo 3.1可以实现每一个新视频都基于上一个视频的最后一个画面继续生成,为解决"AI长视频"生成问题提供了新的思路。

我们通过测试提示词"一只顽皮的虎斑猫以流畅、连续的动作跃上办公桌"验证了这一功能。虽然视频前半部分表现自然,但在小猫跳到电脑后面时出现了明显的"魔法感",仿佛变成了另一只猫。此外,视频最后几秒突然出现开灯设定,亮度明显变化。

尽管存在这些瑕疵,但将两个视频片段连接后,整体上保持了连贯性,并实现了场景的拓展。这表明Veo 3.1在视频拼接和场景延续方面具有潜力。

三图人设:快速定制AI人物形象

Veo 3.1的第三大创新是通过三张图片快速打造一个人设。用户可以分别提供人物头像、服装参考图和场景设定,然后通过提示词要求AI生成符合要求的人物形象和台词。

我们测试了提示词:"一个中景镜头,画面中的女性角色来源于人物参考图,身穿服装参考图中的衣服。她正在场景参考图中的场景里漫步,带着好奇而愉悦的表情环顾四周。环境需与提供的场景图一致。整体风格应为电影质感,拥有自然的光线和轻柔的微风。同步生成环境音效,如树叶的沙沙声和远处的鸟鸣。"

然而,测试结果令人失望。AI视频中的人物建模感严重,服装和场景与参考图片存在明显差异,整体AI感过重,成为本次测试中表现最差的功能。这表明Veo 3.1在人物形象定制方面仍有较大提升空间。

实际测试评估

测试环境与方法

本次测试在Lovart平台上进行,该平台已支持Veo 3.1模型调用。我们针对Veo 3.1的三大核心功能进行了系统性测试,包括音画同步、首尾画面控制和三图人设功能。

音画同步测试结果

在音画同步测试中,Veo 3.1表现出基本的一致性,能够实现声音与画面的同步。例如,在雨天场景中,雷声与闪电能够同时出现,车辆驶过水坑的声音变化也符合物理规律。

然而,生成时间与视频长度不成正比——3分钟的生成倒计时实际只需约1分钟完成,但生成的视频仅6秒左右。此外,视频中只有部分元素呈现动态效果,其他部分保持静止,导致整体画面出现违和感。

首尾画面控制测试结果

首尾画面控制功能展现出一定的连贯性,但在细节处理上仍有不足。例如,在虎斑猫跳跃测试中,视频后半部分出现了明显的"魔法感",仿佛变成了另一只猫。此外,视频最后几秒突然出现亮度变化,破坏了整体一致性。

尽管如此,将两个视频片段连接后,整体上保持了连贯性,并实现了场景的拓展。这表明Veo 3.1在视频拼接和场景延续方面具有潜力。

三图人设测试结果

三图人设功能的表现最为不尽如人意。AI视频中的人物建模感严重,服装和场景与参考图片存在明显差异,整体AI感过重。这表明Veo 3.1在人物形象定制方面仍有较大提升空间。

市场竞争分析

与Sora 2的直接对比

谷歌在官方博客中声称Veo 3.1在文生视频的总体观感、视频对齐程度以及视觉质量等方面,完胜Sora 2 Pro、海螺2.0、Seedance 1.0 Pro和Renway Gen 3等一众视频模型。然而,这一说法引发了行业内的质疑。

Veo 3.1与竞品对比

值得注意的是,谷歌在对比测试中似乎模糊了Veo 3.1和Veo 3的模型边界,所有图片显示的都是Veo 3,而文字表达均为Veo 3.1,这使得评测结果的可靠性存疑。

行业专家对Veo 3.1的评价也不尽相同。Otherside AI创始人Matt Shumer在推特上表示对Veo 3.1感到"有些失望",认为其效果明显逊于Sora 2,价格却高出不少。3D数字艺术家Travis David则指出Veo 3.1并未突破AI视频生成的"8秒"定律,且用户无法自主选择生成音频。

价格策略分析

Veo 3.1的价格策略颇具争议。谷歌在博客中提到价格与Veo 3相同,但实际分析后发现,Veo 3.1仍是目前市场较为昂贵的视频生成模型,仅次于Sora 2 Pro。

谷歌还推出了Veo 3.1 Fast,能够更快生成视频,价格也更低:不含音频的版本每秒$0.15,加上音频生成的版本每秒$0.40美元。值得注意的是,谷歌在价格表中提到"在某些情况下,音频处理问题可能会导致视频无法生成。只有在成功生成视频后,系统才会向您收取费用",这表明该模型仍处于不稳定状态。

Veo 3.1价格表

市场定位差异

与注重趣味感和社交属性的Sora 2相比,Veo 3.1明显定位在"专业化"上。Veo 3.1更强调视频的连贯性、音画一致性以及人物稳定性,瞄准专业影视制作领域。

谷歌给出的应用场景案例也印证了这一点。GenAI电影工作室Promise Studios已在MUSE平台中使用Veo 3.1来增强生成AI视频的故事性;AI生成内容公司Latitude也在其生成叙事引擎中测试Veo 3.1,希望将用户创作的故事立即变为现实。

专业化路线与行业影响

降低高质量视频创作门槛

Veo 3.1的推出标志着谷歌试图撬动专业影视制作领域,降低高质量视频创作的门槛和成本。通过叙事控制、定制化角色以及音画一致性等功能,个人创作者或小团队有望独立制作一系列风格统一的迷你短片或系列视频内容。

专业应用场景探索

目前,已有专业机构开始尝试将Veo 3.1应用于实际创作中。例如,电影工作室利用其增强视频故事性,AI内容公司则探索将其用于叙事引擎,实现从文字到视频的直接转化。

技术局限与挑战

尽管Veo 3.1在多个维度上进行了创新,但从整体视频生成效果来看,五个月的时间里,谷歌在Veo视频模型上仅往前走了"0.1步"。当前AI视频生成技术仍面临多重挑战:视频时长有限、人物建模不自然、场景一致性不足等。

未来展望

技术发展趋势

AI视频生成技术未来可能朝着以下几个方向发展:一是延长单次生成视频的时长;二是提高人物建模的自然度和一致性;三是增强场景连贯性和物理规律遵循;四是实现更精细的音频控制。

行业应用前景

随着技术的不断进步,AI视频生成将在更多领域展现价值:影视制作、广告营销、教育培训、游戏开发等。专业化路线的Veo 3.1可能在高端内容创作领域占据一席之地,而注重趣味性的Sora 2则可能在社交和娱乐领域保持优势。

竞争格局演变

谷歌与OpenAI在AI视频生成领域的竞争才刚刚开始。未来,随着更多科技巨头的加入和技术迭代,这一领域的竞争将更加激烈。价格策略、功能创新和应用场景拓展将成为各厂商竞争的关键。

结论

Veo 3.1的推出代表了谷歌在AI视频生成领域的重要尝试,其三大核心创新——音画同步、首尾画面控制和三图人设——为AI视频生成技术提供了新的可能性。然而,从实际测试结果来看,Veo 3.1在多个方面仍有较大提升空间,与Sora 2相比并不占明显优势。

谷歌选择专业化路线进军影视制作领域,试图通过降低高质量视频创作门槛来拓展市场。这一策略能否成功,仍有待市场检验。无论如何,AI视频生成技术的竞争才刚刚开始,未来将会有更多创新和突破出现。