AI前沿：Kimi-VL突破、iFlytek赋能、昆仑万维精进，AI领域创新动态

在人工智能领域日新月异的今天，每日的行业动态都充满了变革与机遇。让我们一同走进【AI Daily】专栏，探索最新的AI技术趋势和创新应用，为开发者们提供前沿的参考和启发。

Kimi-VL系列：视觉语言模型的突破

近日，Moonshot AI开源了其备受瞩目的Kimi-VL及Kimi-VL-Thinking视觉语言模型。这两款模型以其卓越的多模态理解和推理能力，在业界引起了广泛关注。值得一提的是，Kimi-VL系列采用了轻量级的MoE（Mixture of Experts）架构，仅用30亿参数，便在多个基准测试中超越了强大的GPT-4o模型，实属不易。Kimi-VL系列在数学推理、智能体操控和高分辨率图像处理等领域表现出色，同时支持超长上下文理解，展现了其在多种应用场景下的巨大潜力。

Kimi-VL和Kimi-VL-Thinking的成功，不仅在于其轻量化设计，更在于其强大的性能表现。在MathVision和ScreenSpot-Pro测试中，Kimi-VL分别取得了36.8%和34.5%的优异成绩，充分证明了其卓越的推理能力。此外，该模型支持高达128K tokens的上下文输入，使其能够胜任长文档和视频分析等复杂任务，进一步拓宽了其应用范围。

iFlytek Star Agent：赋能Agent应用开发

iFlytek（科大讯飞）宣布其iFlytek Star Agent开发平台全面支持MCP（模型组合平台），旨在帮助开发者高效构建Agent应用。该平台不仅支持便捷配置和调用行业领先的MCP服务器，还允许一键部署自定义MCP服务器，真正实现了“即插即用”。首批支持的MCP服务器覆盖多个行业，有望推动AI应用中间件的标准化。

iFlytek Star Agent平台的亮点在于其易用性和灵活性。开发者可以轻松配置和调用行业领先的MCP服务器，并支持自定义MCP服务器的一键部署，极大地简化了Agent应用的开发流程。此外，该平台还提供了无代码和低代码的创建模式，赋能个人和企业快速开发大模型应用，降低了AI应用的开发门槛。

昆仑万维Skywork-OR1：数学与代码能力的飞跃

昆仑万维旗下天工团队于4月13日发布了升级后的Skywork-OR1系列模型，标志着其在逻辑推理和复杂任务解决能力上取得了显著突破。该系列包含三款高性能模型，专门针对数学和代码领域进行了优化，展现了卓越的推理能力和成本效益。其中，Skywork-OR1-32B-Preview在竞争性编程任务中表现尤为出色，凸显了其训练策略的先进性。

Skywork-OR1系列模型的发布，是昆仑万维在AI领域持续投入和创新的结果。该系列模型在逻辑理解和复杂任务解决方面达到了行业领先水平，为开发者提供了强大的工具。Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型，分别满足了不同应用场景的需求。尤其值得一提的是，Skywork-OR1-32B-Preview在竞争性编程任务中的出色表现，使其在成本效益方面更具优势。

ByteDance Seed-Thinking-v1.5：推理AI的新星

ByteDance（字节跳动）推出的新型大型语言模型Seed-Thinking-v1.5，在推理AI竞赛中展现出强大的实力。该模型采用了Mixture of Experts架构，在多个基准测试中超越了行业巨头，尤其是在科学、技术、数学和工程领域表现突出。通过技术创新和高效的训练方法，Seed-Thinking-v1.5不仅提高了推理能力，还在非推理任务中表现出色。

Seed-Thinking-v1.5的成功，归功于ByteDance在AI领域的持续投入和创新。该模型专注于STEM（科学、技术、数学和工程）领域，并采用了先进的Mixture of Experts架构，使其在多个基准测试中脱颖而出，超越了Google和OpenAI等公司的产品。此外，Seed-Thinking-v1.5还采用了先进的训练技术和强化学习框架，进一步提升了模型的性能和效率。

SenseTime SenseCore 2.0：AI基础设施的升级

在2025 SenseTime技术交流日上，SenseTime（商汤科技）宣布对其SenseCore 2.0大规模AI基础设施进行全面升级，旨在为企业提供高效且灵活的全栈AI基础设施服务。此次升级解决了大模型行业面临的三大挑战，并通过技术创新显著提高了算力利用率和推理性能。此外，SenseTime还投入1亿元人民币的专项代金券，助力各行业加速AI落地。

SenseCore 2.0的全面升级，是SenseTime在AI基础设施领域的重要里程碑。此次升级旨在提升AI基础设施服务的成本效益和灵活性，更好地满足企业的需求。同时，SenseTime还与Songying Technology（松应科技）建立了战略合作伙伴关系，共同推动具身智能技术的发展，解决智能实施的挑战。此外，SenseTime还投入巨额资金，为企业提供从咨询到模型训练的全流程AI服务支持。

Google Veo 2：视频模型的免费试用

Google AI Studio近日面向部分用户开放了Veo 2视频模型的限时免费试用，引发了广泛关注。Veo 2作为最新一代AI视频生成工具，支持高达4K分辨率和逼真的物理模拟，展现了其强大的技术实力。然而，试用资格受到严格限制，用户对冷却时间和未来使用情况仍存在不确定性。

Veo 2视频模型的推出，是Google DeepMind在AI视频生成领域的又一重要进展。该模型支持高达4K分辨率，展现了卓越的生成能力。然而，由于试用资格受到限制，用户对冷却时间等问题存在疑虑，这可能会影响用户体验。同时，Google对生成内容进行严格控制，以确保用户隐私和安全。

Shanghai AI Lab InternVL3：多模态大语言模型的新篇章

OpenGVLab于4月11日发布了InternVL3系列模型，标志着多模态大语言模型领域迎来了一个新的里程碑。该系列包含从10亿到780亿参数的多种规模模型，能够处理文本、图像和视频，并且性能得到了显著提升。与之前的InternVL2.5相比，InternVL3在多模态感知和推理方面取得了重大进展，扩展了工具使用、工业图像分析等方面的能力。

InternVL3系列模型的发布，是Shanghai AI Lab在多模态大语言模型领域的又一重要贡献。该系列模型支持多种规模，展现了卓越的多模态处理能力。与InternVL2.5相比，InternVL3在多模态感知和推理方面实现了显著的改进，并支持多种图像和视频数据。此外，该模型可以通过LMDeploy的api_server部署为OpenAI兼容的API，方便用户调用。

GAIA基准：AI“智商”测试的革新

随着AI技术的快速发展，准确评估AI的智能水平已成为行业关注的焦点。传统的评估基准（如MMLU）虽然被广泛使用，但其局限性日益显现，无法完全反映AI在实际应用中的能力。新推出的GAIA基准模拟了复杂的现实世界问题，强调AI在多步骤任务中的灵活性和专业性，标志着AI评估方法的一次重大转变。

GAIA基准的推出，旨在更全面地评估AI在现实世界应用中的能力。该基准涵盖了多模态理解和复杂推理等关键技能，能够更准确地反映AI的实际表现。研究表明，在传统基准测试中取得高分的模型，在实际应用中的表现可能并不理想。GAIA基准的初步结果显示，灵活的模型在复杂任务中表现优于其他知名模型。

Pusa：百元级开源视频模型

Pusa是一款基于Mochi微调的开源视频生成模型，以低成本和完全开源为特点。Pusa的训练成本约为100美元，但却展现了良好的视频生成能力，支持多种生成任务。其开放的微调过程促进了社区协作和发展，吸引了更多研究人员参与视频模型研究。

Pusa模型的出现，降低了视频生成模型的开发门槛。与传统的大型视频模型相比，Pusa的训练成本极低，仅为约100美元。同时，Pusa完全开源，提供了完整的代码库和训练方法，方便研究人员进行复现和创新。Pusa基于Mochi微调，支持多种视频生成任务。虽然当前的分辨率为480p，但在运动保真度和提示遵循方面展现了潜力。

ByteDance UNO：保持角色和对象一致性的图像生成

ByteDance的开源项目UNO在AI图像生成领域取得了重大突破，解决了生成图像中角色或对象不一致的问题。通过创新的高一致性数据合成流程和模型设计，UNO确保生成的图像保持一致的特征，无论是在单主体还是多主体场景中。

UNO项目的目标是解决AI图像生成中角色一致性的问题，避免出现“面部失明”现象。UNO通过使用高一致性数据合成流程和创新的模型设计，提高了图像生成的可控性。该项目支持单主体和多主体场景，确保生成结果具有高度一致性。

XPeng Motors：AI汽车公司的定位

XPeng Motors（小鹏汽车）创始人何小鹏在社交媒体上强调了公司作为AI汽车公司的定位，认为人工智能的最大价值在于改变物理世界。他透露了XPeng在自动驾驶领域的创新技术，尤其是在强化学习和模型蒸馏方面的应用，使其在行业中具有独特的竞争优势。此外，XPeng正在训练一个超大规模的物理世界模型，标志着其在AI技术应用方面的领先地位。

XPeng Motors将自身定位为AI汽车公司，强调AI技术在物理世界中的应用价值。通过引入强化学习和模型蒸馏等技术，XPeng旨在提升其在自动驾驶领域的竞争力。此外，XPeng正在训练一个超大规模的物理世界模型，表明其在AI技术应用方面处于领先地位。在2025年的新闻发布会上，XPeng将阐明其未来的发展方向，并推出新款X9车型。

ByteDance：进军AI智能眼镜市场

ByteDance正在积极开发一款AI智能眼镜产品，旨在将先进的AI功能与高质量的图像捕捉相结合，为用户提供创新的体验。该设备将集成ByteDance自主研发的“Doubao” AI模型，增强智能交互能力。用户可以通过语音命令等方式与眼镜进行交互。该项目已进入实质性研发阶段，ByteDance正在与供应链合作伙伴沟通，以推进产品设计和发布计划。

ByteDance正在开发AI智能眼镜，将先进的AI功能与图像捕捉技术相结合。通过集成“Doubao” AI模型，该设备将支持语音命令、实时翻译等智能交互功能。ByteDance计划与供应链合作伙伴沟通，以推进产品设计和发布，从而挑战Meta等竞争对手。