面对迪士尼和环球影业等巨头的版权诉讼,老牌文生图“独角兽”Midjourney并没有因此放慢其创新的脚步,反而选择在今天凌晨,顶着压力推出了其首个视频模型V1。这一举动无疑再次震惊了AI生成领域,也让人们看到了Midjourney在技术探索上的坚定决心。
与市场上其他视频模型一味追求高分辨率、超长镜头不同,Midjourney V1从一开始就明确了其独特的竞争策略——不卷分辨率、不卷长镜头,它卷的,是一股独有的氛围感和审美辨识度。 从目前用户实测的效果来看,Midjourney V1的调色精准、构图考究、情绪饱满,其标志性的风格依旧在线,画面完成度甚至超出了许多网友的预期。
Midjourney的野心远不止于此,它的最终目标是剑指**“世界模型”**,构建一个能够理解和模拟真实世界的AI系统。而V1视频模型的发布,正是其迈向这一宏伟目标的关键一步。那么,这款略显“粗糙”的功能设计,能否让Midjourney在这条充满挑战的道路上走得更远?让我们一起来深入了解Midjourney V1的独特魅力和未来展望。
一、开卷氛围感:Midjourney 视频模型的独特美学与惊艳画面
Midjourney一直以来都以其奇幻、超现实的视觉风格在文生图领域独树一帜。而从目前用户实测的效果来看,其视频模型V1也完美延续了这一美学方向,风格稳定,辨识度极高,让人一眼就能认出这是“Midjourney出品”。它不追求像素的极致细腻,而是通过独特的色彩、光影和构图,营造出一种引人入胜的**“氛围感”**。
让我们通过一些用户分享的案例,感受Midjourney V1的独特魅力:
少年高空坠落:动态与空间美学 在@EccentrismArt博主分享的视频中,一个少年从高空垂直坠落。人物造型简洁,动态感强,仿佛在跳跃、坠落或在梦境中自由落体,运动路径流畅,人物重心相对自然。更令人惊艳的是,城市街区密集、灯光密布,建筑仿佛在空间中倾斜、旋转,形成一种空间扭曲的视觉错觉,但整体建筑动态无明显抖动或AI生成拼接断层,展现了极高的视觉完成度。
日式电车站场景:光影与节奏的艺术 在一段日式电车站场景视频中,电车缓缓离站,太阳将落未落,色温控制到位,光源自然,成功营造出一种静中带动、动中藏静的独特节奏感。这种对光影和色彩的精准把控,是Midjourney一贯的强项,如今在视频中也得到了完美体现。
多重曝光的人像剪影:细节与情绪的融合 一位身穿衬衫、手抱文件或书本的女性剪影,在她背后,是一幅巨大的人类头部侧影。视频中对多重曝光/层叠构图的处理非常干净,光晕勾边自然,没有过曝现象。也难怪Perplexity AI设计师Phi Hoang直呼画面超出预期,这种融合了细节与情绪的艺术表达,令人印象深刻。
值得注意的是,以上展示的案例生成结果可能经过了多轮“抽卡”(即多次尝试),但就最终效果来看,Midjourney V1的视觉完成度已经相当可观,尤其是在其独特的艺术风格和氛围感营造上,表现出超乎预期的能力。
二、快览核心功能:轻松上手,但仍属“早期版本”
Midjourney V1在操作逻辑上保持了其一贯的简洁性,让用户能够轻松上手:
- 操作方式:从今天起,Midjourney用户可以在官网(Midjourney.com)上传图像,或直接使用平台生成的图像,点击新增的**“Animate”按钮**,即可将图像转为视频。
- 输出设置:每次任务会默认生成4段5秒的视频,用户可对任意一段进行最多4次扩展,每次增加4秒,总时长最多可达21秒。官方表示未来将在时长和功能方面进一步扩展。
- 灵活的输入:你可以像往常一样在Midjourney创建图像,然后让它动起来;此外,你还可以上传外部图片作为“起始帧”,再通过提示词描述希望呈现的动态效果。
- 自定义设置:V1提供了一些可调节的自定义设置,便于用户对画面内容做出更细致的控制。
- “手动模式”(Manual):用户可以输入具体提示词,自动设定视频中元素的移动方式和场景。
- “自动模式”(Auto):如果你暂时对提示词没有头绪,可以选择此模式,它会自动为你生成运动提示词,并让图像动起来。
- 运动设置:提供**“低运动模式”(Low motion)和“高运动模式”(High motion)**两种选择。低运动模式适合大多保持静止的镜头,如人物眨眼、微风吹动景物等氛围感场景,但有时效果不明显;高运动模式适合需要镜头和主体都大量移动的场景,但缺点是强烈的运动有时可能会导致画面错误或不稳定。
然而,作为“早期版本”,Midjourney V1也存在不少值得吐槽的局限性,尤其是一些面向专业创作的关键能力缺失:
- “哑剧”模式:Midjourney视频模型只能生成“哑剧”,暂不支持自动添加背景音乐或环境音效。若需音频,仍需使用其他第三方工具手动添加。
- 缺乏时间轴编辑:生成的视频片段之间是“跳切”的,无法做到故事连续、画面自然衔接,也就很难控制剧情节奏或情绪铺垫。这意味着它目前还无法用于制作有叙事逻辑的完整视频。
- 无API支持:Midjourney视频模型暂时也不提供API接口,限制了其在第三方应用或自动化工作流中的集成。
- 分辨率限制:Midjourney默认输出24fps、480p的视频,视频长宽比会自动适配图像原尺寸。虽然在特定风格下高分辨率并非唯一标准,但480p的画质在某些应用场景下仍显不足。
Midjourney官方也坦言,当前版本仍属早期探索阶段,重在可访问、易上手、可扩展,这为未来的功能迭代留下了巨大的想象空间。
三、价格与性价比:订阅包含,但资源消耗不容小觑
在价格方面,Midjourney视频功能被直接纳入其现有的订阅体系,起价依旧是每月10美元。这意味着现有订阅用户无需额外付费即可体验视频生成功能。
根据官方博客的说法,Midjourney每段视频的GPU耗时约为图像任务的8倍,但在生成长视频的情况下,平均每秒的成本几乎与图像生成持平。相较竞品,其性价比可以排进第一梯队。
此外,Midjourney正在面向Pro及以上等级的订阅者测试**“Relax Mode”模式**,该模式将会以较慢的速度完成生成任务,从而降低对算力资源的消耗。至于其他等级的用户,依然按照GPU时间和会员等级计费。这为不同需求的用户提供了更多灵活的成本控制选项。
四、野心勃勃:Midjourney 正在搭建“世界模型”的第二块积木
视频模型V1的发布,对于Midjourney而言,绝不仅仅是多了一个功能。它是其实现终极目标——构建一个“世界模型”——的关键一步。
你可以将“世界模型”理解为一个能够实时生成画面的AI系统,在这个系统中,用户可以输入一句话,命令AI主角在3D空间中移动,环境场景也会随之变化,而且用户可以与一切进行互动。这是一种对虚拟世界创造和交互的终极愿景。
为了实现这个宏伟目标,Midjourney规划了四块关键的技术“积木”,它们将陆续交付,最终整合成一个统一的系统:
- 图像模型(生成静态画面):这是Midjourney目前已经非常成熟的核心能力,能够生成高质量的静态图像。
- 视频模型(让画面动起来):V1的发布,正是这第二块积木的完成。它让静态的图像拥有了动态的生命力。
- 3D模型(实现空间导航与镜头运动):未来的目标是让AI能够理解并生成三维空间,实现更复杂的空间导航和自由的镜头运动。
- 实时模型(保证每一帧都能同步响应):最终,要实现的是一个能够实时响应用户指令、每一帧画面都能同步生成的系统,这将是真正的“世界模型”。
按照Midjourney的产品规划,V1视频模型是这个终极目标的第二步阶段性成果。这意味着,我们现在看到的V1,只是冰山一角,未来Midjourney还将在3D、实时渲染等方面持续发力,最终构建一个能够模拟和创造世界的强大AI平台。
五、结语:AI视频生成的新篇章,审美至上
Midjourney V1的发布,为AI视频生成领域开启了一个全新的篇章。它不再是单纯的技术堆砌和参数竞争,而是将美学、氛围感和艺术性放在了更重要的位置。它用480p的分辨率,却呈现出了超预期的视觉效果,证明了在某些场景下,“独有的风格和审美辨识度”比“极致的像素和时长”更能打动人心。
当然,作为早期版本,Midjourney V1仍有许多需要改进之处,尤其是在音频、编辑功能和API支持方面。但其强大的艺术表现力和明确的“世界模型”愿景,使其成为AI生成领域最值得关注的玩家之一。
我们正目睹AI从“工具”向“创造者”的转变,而Midjourney V1正是这一转变中的一个重要里程碑。它让我们看到了AI不仅能生成内容,更能生成具有独特艺术灵魂和感染力的内容。未来,AI视频生成将不再仅仅是技术能力的较量,更将是一场审美和创意的盛宴。