AI日报：GPT-4.1上线，通义万相开源，可灵大模型领跑视频生成

在人工智能领域日新月异的今天，每一项技术突破都可能引发行业的巨大变革。2025年5月15日，AI领域再次迎来了一系列激动人心的进展，从模型开源到技术升级，再到市场格局的演变，无不预示着AI技术正在加速渗透到我们生活的方方面面。

视频编辑的革新：通义万相Wan2.1-VACE开源

阿里巴巴通义万相宣布将其视频编辑统一模型VACE开源，这无疑为视频创作领域注入了新的活力。VACE模型支持多种分辨率和任务，旨在提供一站式视频创作体验。通过多模态输入机制，VACE能够实现高效灵活的视频编辑，极大地提升了创作效率。

VACE模型的功能十分强大，支持文生视频、图像参考生成、局部编辑与视频扩展等多种任务。更令人惊喜的是，它还具备强大的可控重绘能力，可以基于人体姿态、运动光流等控制生成，并支持主体和背景参考。为了实现多任务自由组合与灵活编辑，VACE还提出了视频条件单元VCU，统一了多模态输入。

GPT-4.1的发布：编码能力的飞跃

OpenAI对ChatGPT进行了重大升级，正式引入了GPT-4.1，并推出了轻量级版本GPT-4.1mini。GPT-4.1在编码能力上实现了显著增强，指令执行体验也得到了大幅优化。此次升级还优化了用户体验和多模态支持，进一步巩固了OpenAI在AI领域的领先地位。

GPT-4.1具备强大的编码能力，能够更高效地处理复杂编程需求，运行速度也更快，是开发者和指令处理场景的理想选择。与此同时，GPT-4.1mini轻量级且高效，即使在资源受限的设备上也能流畅运行，为免费和付费用户提供了广泛的访问渠道。ChatGPT还新增了多项功能，如长按复制、表格复制和流式传输，界面优化也显著提升了用户体验。

轻量级语音合成：Stability AI的创新

Stability AI发布了一款名为“Adversarial Post-Training加速的快速文字转音频生成”的超轻量文字转语音模型。该模型参数仅为341M，却能在H100 GPU上以75毫秒生成12秒音频，在手机CPU上仅需7秒即可完成同样任务，性能十分出色，且多样性强。

ARC后训练方法不基于蒸馏，有效提升了模型生成速度与质量。该模型轻量化的设计使其能够支持手机本地运行，大幅提升了移动端创意应用体验。此外，音频转音频功能还能够实现风格迁移，激发更多创作灵感。

市场格局：可灵大模型的崛起

近日发布的2025年春季AI模型使用趋势报告显示，中国快手的可灵多款视频生成模型在文生视频领域表现突出，市场份额达到了30%，领先于Runway等竞争者。其中，可灵2.0模型仅在发布三周后就占据了21%的使用比例。自去年6月发布以来，可灵AI的全球用户已突破2200万，月活跃用户增长了25倍，生成的视频和图片数量也显著增加。

人才流动：微软WizardLM团队加入腾讯

微软的人工智能研究团队WizardLM整体加入了腾讯AI实验室的“混元”团队，这标志着腾讯在大模型领域进一步发力。WizardLM团队不仅带来了多项技术突破，还通过开源模型展示了其强大的研发实力。

曾隶属于微软的WizardLM团队整体加入腾讯混元团队，无疑强化了腾讯在大模型领域的竞争力。Hunyuan-TurboS0416模型首次使用“混元”命名，象征着团队与腾讯的深度融合。腾讯计划大幅增加在AI领域的投资，目标是在全球AI竞争中占据更为主导的地位。

腾讯混元图像2.0：AI视觉的新篇章

腾讯混元大模型团队宣布，混元图像2.0将于5月16日发布。这是腾讯在AI视觉领域的重要突破，以“更智能、更开放、更中国”为核心理念，旨在助力创作者和企业迈向AI驱动的视觉生产新时代。

继去年混元大模型升级后，腾讯再次展示了其在人工智能领域的持续创新力。混元图像2.0的发布，无疑将为AI视觉领域带来新的活力。

人工智能标识生态联盟：规范与信任的基石

上海市成立了人工智能标识生态联盟，该联盟旨在推动人工智能领域的标识技术发展，提高生成内容的透明度和安全性。通过政策解读和企业合作，该联盟将为构建可信的人工智能环境奠定基础。

该联盟由上海市委网信办指导，汇聚了多家知名企业，目标是提升AI生成内容的透明度和安全性。国家互联网应急中心和中国电子技术标准化研究院将解读相关政策，强调国际规则与中国特色的结合。小红书、MiniMax等企业将参与标识工作实践，探索多种内容的标识方案并积累治理经验。

Lightricks LTX-Video-13B：视频生成的速度与质量

以色列科技公司Lightricks发布了开源AI视频生成模型LTX-Video-13B精炼模型。该模型以130亿参数为基础，结合多尺度渲染技术和高效量化优化，将视频生成速度提升至10秒以内，同时保持高质量输出。

LTX-Video-13B采用了多尺度渲染技术，使得高清视频的生成速度提升了5倍以上。作为一款开源模型，它还支持低显存设备运行，有效降低了AI视频制作成本。其生成速度的提升高达30倍，堪比专业影视作品，有望重塑内容创作生态。

AlphaEvolve：谷歌DeepMind的自进化AI

谷歌DeepMind发布了AlphaEvolve，这是一款结合了Gemini大语言模型与进化算法的AI编码代理。它在多个领域展现了强大的自优化能力，包括数据中心调度、芯片设计、AI训练以及数学研究。

AlphaEvolve通过Gemini与进化算法的结合，能够有效解决芯片优化和数学难题等复杂问题。在数据中心调度方面，AlphaEvolve优化数据中心调度，回收了0.7%的全球算力，有效节省了运营成本。在AI训练方面，Gemini模型的训练速度提升了32.5%，展现了强大的自我优化能力。

腾讯元宝浏览器插件：效率提升的新工具

腾讯元宝浏览器插件尝鲜版已上线Chrome平台，提供了悬浮球、常驻侧边栏和划词工具栏等功能，旨在提升网页浏览与信息处理效率。

悬浮球功能支持一键翻译和总结网页内容，能够帮助用户轻松跨越语言障碍并节省阅读时间。常驻侧边栏则可以高效答疑，支持截图提问，大幅提升了信息获取效率。划词工具栏则实现了选中文本后的即时搜索或翻译，使得信息处理更加流畅。

总而言之，2025年5月15日AI领域的各项进展，预示着AI技术正在加速渗透到我们生活的方方面面。从视频编辑的革新到编码能力的飞跃，再到市场格局的演变和效率工具的创新，AI正在以前所未有的速度改变着世界。