AI视频创作,从极客专属到人人可用,一共需要几步?
全民玩梗的狂欢,再一次在AI视频领域上演。最大的时代红利,属于今年四季度发布的中美两大明星产品,OpenAI的Sora 2与阿里的Wan2.5-Preview。其中,Sora 2的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效,用户为了获得一个入场券除了需要购买GPT的会员之外,甚至还在二手平台再花几十美金购买邀请码。更绝的是,它把自己变成了一个AI版抖音,用户只需上传一张照片,就能生成自己和奥特曼对话的魔性视频。这种把用户变成主角的设计,让Sora App首周下载量直冲62.7万次,甚至超过了当年的ChatGPT。
大洋彼岸,Wan2.5-Preview则以另一种方式在各大社交媒体刷屏。一夜之间,抖音、小红书上的AI小猫开始集体说着"我爱妈妈"然后炒着三菜一汤等主人下班,画面中的光线、格局、小猫表情细腻到令人发指之外,甚至炒菜的锅气与油烟这样的细节也完全到位。
可以说,正是这两大模型的出现,让AI视频一夜之间从技术圈极客专属推向全民热潮。那么,这一次AI视频2025年破圈的关键是什么?Wan2.5-Preview在内的一众最新模型做对了什么?与此同时,这次的AI视频浪潮又会火多久?
AI视频为什么又火了
Wan2.5-Preview与Sora 2的爆发绝非偶然,而是技术积累到一定程度的必然结果。而要理解这次AI视频的爆发,就得先看懂历史上的三起两落。
行业的第一次爆发发生在2022-2023年期间,那时候借助U-Net、DDPM等经典生成架构,DALL-E 2(OpenAI)、Midjourney、Stable Diffusion(Stability AI)、ControlNet、Gen-2(Runway)、万相1.0等模型通过以文生图让人们第一次看到了AI创作的潜力。但很快,这些模型就因为六指怪、表情呆板等问题被喷上热搜。模型随之在2024年前后,进入Scaling阶段,通过采用DiT、Flow Matching等新技术,结合视觉语言模型(VLM)的图像描述能力,生成更逼真的图片,图生视频成为可能,这一阶段,Sora(OpenAI)、可灵1.0/1.6、海螺01、Flux 1.1、万相2.0/2.1陆续走上台前。但这一阶段,AI生成的视频,依然存在时间短、音画不同步、无法执行复杂动作的弊病。
直到2025年,随着LLM(大语言模型)与Diffusion(扩散模型)的深度融合,AI视频迎来了质的飞跃。通过引入视觉CoT(思维链),模型从单纯的视觉渲染转向任务导向的智能决策,不仅能支持多模态交互,还能解决复杂的视觉+语言任务。Gemini 2.0 Flash(谷歌)、GPT-4o生图(OpenAI)、可灵2.0、Veo 3、Seedance 1.0、豆包、万相2.2、Nano Banana(谷歌)相继爆火。
四年间,模型千变万化,但每次AI视觉产品的爆火的背后,都离不开两大方面的进步:门槛降低以及效果提升。
早期以SD为代表的工具,是典型的极客专属——CFG scale数值要反复调试,数十个节点的连接逻辑能劝退90%的用户;生成内容更是阴间赛博风,除了P站上粗制滥造的成人内容,几乎没人愿意盯着画面里突然冒出两张脸、音画完全不同步的视频超过一分钟。
反观当下的热门模型,无论是计划做AI时代抖音的Sora 2,还是社交媒体刷屏的Wan2.5-Preview,都踩中了同一个关键点:高质量的同时,把门槛降到人人可用。
首先是针对过去AI模型的赛博审丑,Wan2.5-Preview通过人类反馈的强化学习(RLHF)把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型,彻底摆脱丑且诡异的标签。而要达成以上效果,用户不需要懂任何技术,只要能把自己脑海中的画面,用一段简单的提示词说出来,就能生成栩栩如生的视频。
比如,这是一个使用Wan2.5-生成的高赞视频。提示词:"黄昏,逆光,侧光,柔光,高对比度,中景,中心构图,干净的单人镜头,暖色调。年轻白人男子站在树林中,阳光透过树叶在他发丝上形成金色光晕。他穿着浅色衬衫,微风吹动他的头发和衣领,光线随着他的动作在脸上流动。背景虚化,远处是斑驳的光影和柔和的树影,镜头聚焦于他微微抬起的目光,眼神清澈且带有情绪。"

可以看到,画面中不仅人物神态动作自然,空气中的尘埃,树林中的光线也都十分还原,去掉右下角的logo,几乎无法分辨是否实拍。
在此基础上我们再加点难度,画面更复杂一点,主体变成有精细毛发细节的布偶猫,然后加入动作、神态以及抑扬顿挫的语调:提示词:"电影感仰拍镜头,让主体显得很有权势。在一间奢华的客厅里,一只雍容华贵的布偶猫坐在一张王座般的猫爬架上。它用居高临下、充满审判意味的蓝色眼睛俯视着镜头。它缓缓抬起一只毛茸茸的爪子,以一种极度鄙视的表情指向观众,质问说:'嗯?那我再问你,我生成视频的音频不自然吗?回答我!Look in my eyes!Tell me, why?Why baby why?'。戏剧性的华丽光影,浅景深,超精细的毛发细节,照片级真实感。"
可以看到多个升级版要求多管齐下,但整体画面的质量依然没有下降,甚至就连环境中的光线角度,光源反射细节都完美还原。
当然,这种低门槛与高质量,只是Wan2.5-Preview火起来的基础,在用户体验细节上,Wan2.5-Preview还做了更多的探索与尝试。
如何定义体验ready的视频模型
AI模型的技术参数再漂亮,最终要落地到用户体验上。过去很多AI工具的通病是碎片化——文生图一个模型、文生视频一个工具、图生视频又要换平台,用户为了实现一个创意,得在多个工具间反复切换,生成、调整、合成的繁琐步骤,早已磨掉了创作热情。
更不用说,过去做一条电商营销视频,用户要先找模型生成画面,再用另一个工具做音频,最后用第三方软件合成,耗时不说,还容易出现音画错位。最后为了节约拍摄成本,不得不再招聘一个成本更高的算法工程师搭建业务的workflow。
seaart.ai的案例很有代表性。这家2023年4月成立的公司,专注图像和视频生成,全球活跃用户超2500万,稳居AIGC web产品TOP 50。他们采访过一位澳大利亚理发师,对方从小的梦想是当画家,却为生活拿起了剪刀。现在他每天最开心的时刻,就是下班用seaart.ai创作——过去用画笔无法表达的想法,现在用文字就能生成画面,"海艺成了安放灵魂和梦想的地方"。
之所以选择海艺,正是因为海艺集成像Wan2.5-Preview这样的模型,解决了过去AI视觉生成用户体验割裂的痛点。在Wan2.5-Preview,生成10秒视频时,系统会自动匹配人声、环境音效和背景音乐,甚至能让小猫的口型和"我爱妈妈"的台词对应上,全程无需人工干预。
在这背后,则是Wan2.5-Preview的统一框架设计:Wan2.5-Preview没有像SD那样堆砌独立模型,而是把文本、图像、视频、音频的理解与生成装进了同一个框架里。底层用文本分词器、图像/视频编码器、音频编码器分别拆解不同类型的信息;核心用多模态Transformer做大脑,实现跨模态信息的深度融合;输出层直接支持文本、图像、视频、音频的生成,借助多模态对齐能力,用户不再需要在多个工具间切换。

最重要的是,用过AI的人都知道,一次性生成满意的内容几乎不可能。但是对图像和视频二次编辑又往往非常困难。Wan2.5-Preview在这方面做了针对性优化:
- 视频编辑:增强了复杂指令精准执行能力,能理解运镜语言(如推、拉、摇、移)及连续变化指令,无需多次调整;强化了图生视频的元素ID一致性(即生成过程中保持人物、物体等核心元素不丢失),同时支持通用音频驱动视频生成。
- 图像编辑:不仅能稳定生成中文、英文等文字,甚至能直接生成图表;还能通过文字指令一键换装、改风格,编辑时核心元素不会变形。
正是这些体验细节的打磨,让海艺平台上的用户用Wan2.5-Preview生成的视频数突破500万条,创意的表达就像说话一样自然。
技术到商业,如何加速
技术ready、体验ready的AI产品不少,但很多都停留在叫好不叫座的阶段。Wan2.5-Preview的聪明之处在于,它在做好产品的同时,也打造了一整套完善的商业化体系。
这套完整商业化体系的最底层,是阿里云的算力支持,与模型软硬一体形成生态护城河。中间层则是阿里云百炼这样的模型开发服务平台,让用户一键部署大模型不再是天方夜谭;最顶层的模型侧,也给足了用户选择。
以Wan2.5-Preview为例,不同用户的需求天差地别:有人只是想尝鲜做个5秒短镜头,有人要做10秒的抖音爆款;有人追求1080P电影级画质,有人觉得720P够用就行。Wan2.5-Preview选择,5秒、10秒,画质上,提供480P、720P、1080P三种选择,用户可以根据预算和用途自由切换。
在此基础上,Wan2.5-Preview没有掩饰自己对商业化以及算清成本账的野心。在最近的飞天发布时刻上Wan2.5-Preview正式宣布商业化,并给出了明确且足够优惠的收费标准:
- 国内:1080P 1元/秒,720P 0.6元/秒,480P 0.3元/秒;
- 海外:1080P 0.15美元/秒,720P 0.1美元/秒,480P 0.05美元/秒。
形成对比,Sora 2生成视频需要0.1-0.5美元/秒,国内可灵2.0收费标准为0.5元/秒,Wan2.5-Preview属于同等内容质量产品中,定价也极具吸引力的一档。
而这种定价方式精准击中了不同用户的痛点:对短视频团队、广告公司等专业用户,清晰的定价能让他们准确核算成本,比SD免费但需自己承担服务器成本更划算;对普通尝鲜用户,按秒收费意味着花几块钱就能试玩,不会被高昂的套餐费吓跑。
建立在丰富的选择与定价标准之上,通义万相的商业生态也已经初步跑通,WaveSpeedAI就是最好的案例。这是一家专注多模态AI生成的平台型公司,也是全球第一个上线Wan2.5系列模型的平台。围绕怎么用好Wan2.5-Preview,WaveSpeedAI的做法很聪明:它根据用户的价格敏感度,按照分辨率、生成时长、加速程度梯度收费,此外,根据模型的不同,提供了分层解决方案:
- 最低价区间:用Wan2.2的快速推理版本,满足预算有限的用户;
- 中间层:用优化后的Wan2.2开源模型,平衡成本和质量;
- 高端层:用Wan2.5的快速版和普通版,服务追求高质量的用户;
在此基础上,WaveSpeedAI还拓展了数字人业务,在对口型的基础上,实现了更丰富的肢体动作和表情控制。目前,WaveSpeedAI借助Wan2.5生成的视频数已突破1000万条。以上只是个例,据云栖大会官宣数据,通义万相家族已整合10多种视觉创作能力,累计生成3.9亿张图片和7000万个视频,成为国内主流的AI视觉创作工具。
未来展望
AI视频的故事远没到结尾。技术侧,现在的模型依然有短板:内容生成时长不够长、细节不够细腻、长视频的一致性问题还没完全解决……但不可否认的是,无论是Sora 2的AI Tik Tok野心,还是Wan2.5-Preview的行业侧深耕,都让AI视觉生成跨过了技术到产品的鸿沟。
在这个过程中,技术先进固然重要,但能把技术变成用户愿意用、愿意付费的产品,让行业真正尝到SOP缩短,效率增加,用户体验提升,才是真正的胜负手。未来,随着技术的不断进步和商业模式的持续优化,AI视频将更加深入地融入各行各业,为内容创作带来革命性的变化。











