惊艳超预期！Midjourney 首次发布视频模型 V1：不卷分辨率，只卷独家“氛围感”！

首个视频模型V1

面对迪士尼和环球影业等巨头的版权诉讼，老牌文生图“独角兽”Midjourney并没有因此放慢其创新的脚步，反而选择在今天凌晨，顶着压力推出了其首个视频模型V1。这一举动无疑再次震惊了AI生成领域，也让人们看到了Midjourney在技术探索上的坚定决心。

与市场上其他视频模型一味追求高分辨率、超长镜头不同，Midjourney V1从一开始就明确了其独特的竞争策略——不卷分辨率、不卷长镜头，它卷的，是一股独有的氛围感和审美辨识度。 从目前用户实测的效果来看，Midjourney V1的调色精准、构图考究、情绪饱满，其标志性的风格依旧在线，画面完成度甚至超出了许多网友的预期。

Midjourney的野心远不止于此，它的最终目标是剑指**“世界模型”**，构建一个能够理解和模拟真实世界的AI系统。而V1视频模型的发布，正是其迈向这一宏伟目标的关键一步。那么，这款略显“粗糙”的功能设计，能否让Midjourney在这条充满挑战的道路上走得更远？让我们一起来深入了解Midjourney V1的独特魅力和未来展望。

一、开卷氛围感：Midjourney 视频模型的独特美学与惊艳画面

Midjourney一直以来都以其奇幻、超现实的视觉风格在文生图领域独树一帜。而从目前用户实测的效果来看，其视频模型V1也完美延续了这一美学方向，风格稳定，辨识度极高，让人一眼就能认出这是“Midjourney出品”。它不追求像素的极致细腻，而是通过独特的色彩、光影和构图，营造出一种引人入胜的**“氛围感”**。

让我们通过一些用户分享的案例，感受Midjourney V1的独特魅力：少年高空坠落：动态与空间美学

少年高空坠落：动态与空间美学 在@EccentrismArt博主分享的视频中，一个少年从高空垂直坠落。人物造型简洁，动态感强，仿佛在跳跃、坠落或在梦境中自由落体，运动路径流畅，人物重心相对自然。更令人惊艳的是，城市街区密集、灯光密布，建筑仿佛在空间中倾斜、旋转，形成一种空间扭曲的视觉错觉，但整体建筑动态无明显抖动或AI生成拼接断层，展现了极高的视觉完成度。
日式电车站场景：光影与节奏的艺术 在一段日式电车站场景视频中，电车缓缓离站，太阳将落未落，色温控制到位，光源自然，成功营造出一种静中带动、动中藏静的独特节奏感。这种对光影和色彩的精准把控，是Midjourney一贯的强项，如今在视频中也得到了完美体现。
多重曝光的人像剪影：细节与情绪的融合 一位身穿衬衫、手抱文件或书本的女性剪影，在她背后，是一幅巨大的人类头部侧影。视频中对多重曝光/层叠构图的处理非常干净，光晕勾边自然，没有过曝现象。也难怪Perplexity AI设计师Phi Hoang直呼画面超出预期，这种融合了细节与情绪的艺术表达，令人印象深刻。

值得注意的是，以上展示的案例生成结果可能经过了多轮“抽卡”（即多次尝试），但就最终效果来看，Midjourney V1的视觉完成度已经相当可观，尤其是在其独特的艺术风格和氛围感营造上，表现出超乎预期的能力。

二、快览核心功能：轻松上手，但仍属“早期版本”

Midjourney V1在操作逻辑上保持了其一贯的简洁性，让用户能够轻松上手：

操作方式：从今天起，Midjourney用户可以在官网（Midjourney.com）上传图像，或直接使用平台生成的图像，点击新增的**“Animate”按钮**，即可将图像转为视频。
输出设置：每次任务会默认生成4段5秒的视频，用户可对任意一段进行最多4次扩展，每次增加4秒，总时长最多可达21秒。官方表示未来将在时长和功能方面进一步扩展。
灵活的输入：你可以像往常一样在Midjourney创建图像，然后让它动起来；此外，你还可以上传外部图片作为“起始帧”，再通过提示词描述希望呈现的动态效果。
自定义设置：V1提供了一些可调节的自定义设置，便于用户对画面内容做出更细致的控制。
- “手动模式”（Manual）：用户可以输入具体提示词，自动设定视频中元素的移动方式和场景。
- “自动模式”（Auto）：如果你暂时对提示词没有头绪，可以选择此模式，它会自动为你生成运动提示词，并让图像动起来。
- 运动设置：提供**“低运动模式”（Low motion）和“高运动模式”（High motion）**两种选择。低运动模式适合大多保持静止的镜头，如人物眨眼、微风吹动景物等氛围感场景，但有时效果不明显；高运动模式适合需要镜头和主体都大量移动的场景，但缺点是强烈的运动有时可能会导致画面错误或不稳定。

然而，作为“早期版本”，Midjourney V1也存在不少值得吐槽的局限性，尤其是一些面向专业创作的关键能力缺失：

“哑剧”模式：Midjourney视频模型只能生成“哑剧”，暂不支持自动添加背景音乐或环境音效。若需音频，仍需使用其他第三方工具手动添加。
缺乏时间轴编辑：生成的视频片段之间是“跳切”的，无法做到故事连续、画面自然衔接，也就很难控制剧情节奏或情绪铺垫。这意味着它目前还无法用于制作有叙事逻辑的完整视频。
无API支持：Midjourney视频模型暂时也不提供API接口，限制了其在第三方应用或自动化工作流中的集成。
分辨率限制：Midjourney默认输出24fps、480p的视频，视频长宽比会自动适配图像原尺寸。虽然在特定风格下高分辨率并非唯一标准，但480p的画质在某些应用场景下仍显不足。

Midjourney官方也坦言，当前版本仍属早期探索阶段，重在可访问、易上手、可扩展，这为未来的功能迭代留下了巨大的想象空间。

三、价格与性价比：订阅包含，但资源消耗不容小觑

在价格方面，Midjourney视频功能被直接纳入其现有的订阅体系，起价依旧是每月10美元。这意味着现有订阅用户无需额外付费即可体验视频生成功能。

根据官方博客的说法，Midjourney每段视频的GPU耗时约为图像任务的8倍，但在生成长视频的情况下，平均每秒的成本几乎与图像生成持平。相较竞品，其性价比可以排进第一梯队。

此外，Midjourney正在面向Pro及以上等级的订阅者测试**“Relax Mode”模式**，该模式将会以较慢的速度完成生成任务，从而降低对算力资源的消耗。至于其他等级的用户，依然按照GPU时间和会员等级计费。这为不同需求的用户提供了更多灵活的成本控制选项。

四、野心勃勃：Midjourney 正在搭建“世界模型”的第二块积木

视频模型V1的发布，对于Midjourney而言，绝不仅仅是多了一个功能。它是其实现终极目标——构建一个“世界模型”——的关键一步。

你可以将“世界模型”理解为一个能够实时生成画面的AI系统，在这个系统中，用户可以输入一句话，命令AI主角在3D空间中移动，环境场景也会随之变化，而且用户可以与一切进行互动。这是一种对虚拟世界创造和交互的终极愿景。

为了实现这个宏伟目标，Midjourney规划了四块关键的技术“积木”，它们将陆续交付，最终整合成一个统一的系统：

图像模型（生成静态画面）：这是Midjourney目前已经非常成熟的核心能力，能够生成高质量的静态图像。
视频模型（让画面动起来）：V1的发布，正是这第二块积木的完成。它让静态的图像拥有了动态的生命力。
3D模型（实现空间导航与镜头运动）：未来的目标是让AI能够理解并生成三维空间，实现更复杂的空间导航和自由的镜头运动。
实时模型（保证每一帧都能同步响应）：最终，要实现的是一个能够实时响应用户指令、每一帧画面都能同步生成的系统，这将是真正的“世界模型”。

按照Midjourney的产品规划，V1视频模型是这个终极目标的第二步阶段性成果。这意味着，我们现在看到的V1，只是冰山一角，未来Midjourney还将在3D、实时渲染等方面持续发力，最终构建一个能够模拟和创造世界的强大AI平台。

五、结语：AI视频生成的新篇章，审美至上

Midjourney V1的发布，为AI视频生成领域开启了一个全新的篇章。它不再是单纯的技术堆砌和参数竞争，而是将美学、氛围感和艺术性放在了更重要的位置。它用480p的分辨率，却呈现出了超预期的视觉效果，证明了在某些场景下，“独有的风格和审美辨识度”比“极致的像素和时长”更能打动人心。

当然，作为早期版本，Midjourney V1仍有许多需要改进之处，尤其是在音频、编辑功能和API支持方面。但其强大的艺术表现力和明确的“世界模型”愿景，使其成为AI生成领域最值得关注的玩家之一。

我们正目睹AI从“工具”向“创造者”的转变，而Midjourney V1正是这一转变中的一个重要里程碑。它让我们看到了AI不仅能生成内容，更能生成具有独特艺术灵魂和感染力的内容。未来，AI视频生成将不再仅仅是技术能力的较量，更将是一场审美和创意的盛宴。