AI前沿：Kimi模型超越GPT-4o，讯飞星辰Agent升级，字节跳动布局AI眼镜

在人工智能领域，日新月异的技术变革不断涌现，深刻地影响着我们的生活和工作。今日的AI日报精选了近期发布的几项重要进展，涵盖了模型开源、平台升级、硬件创新等多个方面，力求为读者呈现一幅全面而深入的AI发展图景。

Kimi视觉语言模型的突破

首先，Moonshot AI开源的Kimi-VL和Kimi-VL-Thinking视觉语言模型，无疑是本次日报的亮点之一。这两款模型采用了轻量级的MoE架构，令人惊讶的是，仅有30亿参数的它们，在多项基准测试中竟然超越了强大的GPT-4o。Kimi-VL系列在数学推理、智能体操作以及高分辨率图像处理等方面的卓越表现，预示着其在未来的广泛应用前景。特别值得一提的是，该模型支持高达128K tokens的上下文输入，这使得它在处理长文档和视频分析等任务时，能够展现出更大的优势。想象一下，未来我们可以利用Kimi-VL来快速分析大量的法律文件，或者高效地理解长篇的学术论文，这将极大地提升我们的工作效率。

讯飞星辰Agent开发平台的升级

科大讯飞的讯飞星辰Agent开发平台，近日也宣布全面支持MCP。这一举措旨在帮助开发者更高效地构建Agent应用。该平台不仅支持轻松配置和调用行业领先的MCP Server，还允许一键发布自定义MCP Server，真正实现了“即插即用”。首批支持的MCP Server覆盖了多个行业，这无疑将极大地推动AI应用的中间层标准化。对于开发者而言，这意味着可以更加便捷地获取和使用各种AI能力，从而加速应用的开发进程。例如，开发者可以利用讯飞星辰Agent开发平台，快速构建一个智能客服机器人，为用户提供更加个性化的服务。

昆仑万维Skywork-OR1系列模型的开源

昆仑万维天工团队推出的全新升级Skywork-OR1系列模型，同样值得关注。该系列模型在逻辑推理和复杂任务求解方面取得了重大突破。Skywork-OR1系列包含三款高性能模型，分别针对数学和代码领域，展现出卓越的推理能力和性价比。其中，Skywork-OR1-32B-Preview在竞赛编程任务中表现尤为突出，这充分展示了其训练策略的先进性。对于程序员而言，这意味着拥有了更加强大的工具，可以更加高效地解决各种编程难题。例如，在参加编程竞赛时，可以借助Skywork-OR1-32B-Preview来快速生成代码，从而提高获胜的几率。

字节跳动Seed-Thinking-v1.5的崭露头角

字节跳动推出的新型大语言模型Seed-Thinking-v1.5，在推理AI竞争中展现出强大的实力。该模型采用混合专家架构，在多项基准测试中超越了行业巨头，尤其是在科学、技术、数学和工程领域。通过技术创新和高效的训练方法，Seed-Thinking-v1.5不仅提高了推理能力，还在非推理任务中表现出色。这表明，Seed-Thinking-v1.5在处理各种复杂问题时，都能够发挥出强大的作用。例如，在科研领域，可以利用Seed-Thinking-v1.5来分析大量的实验数据，从而发现新的科学规律。

商汤大装置SenseCore2.0的升级与亿元代金券计划

在2025商汤技术交流日上，商汤科技宣布其大装置SenseCore2.0全面升级，旨在为企业提供高效、灵活的全栈AI基础设施服务。此次升级响应了大模型产业的三大挑战，并通过技术创新显著提升了算力利用率和推理性能。此外，商汤科技还投入1亿元专项代金券，助力各行业加速AI落地。这对于企业而言，无疑是一个巨大的利好消息。通过使用SenseCore2.0，企业可以更加便捷地构建和部署AI应用，从而提升自身的竞争力。

Google AI Studio开放Veo2视频模型有限免费试用

Google AI Studio最近向部分用户开放了Veo2视频模型的有限免费试用，引发了广泛关注。Veo2作为最新一代AI视频生成工具，支持高达4K分辨率和真实的物理模拟，展现了其强大的技术实力。虽然试用权限受到严格限制，但Veo2的出现，无疑为视频创作领域带来了新的可能性。想象一下，未来我们可以利用Veo2来轻松制作出高质量的电影特效，或者快速生成各种宣传视频，这将极大地降低视频创作的门槛。

上海AI实验室开源InternVL3系列多模态大型语言模型

OpenGVLab于4月11日发布了InternVL3系列模型，标志着多模态大型语言模型领域的新里程碑。该系列模型包含从1B到78B的多种尺寸，具备处理文字、图片、视频等多种信息的能力，性能显著提升。与前代产品相比，InternVL3在多模态感知和推理上有了显著进步，扩展了工具使用、工业图像分析等多个领域的能力。InternVL3的开源，将极大地促进多模态AI技术的发展。研究人员可以基于InternVL3来开发各种新的应用，例如智能图像搜索、视频内容理解等。

AI“智商”大考变革：全新GAIA基准超越 ARC-AGI

随着人工智能技术的迅速发展，如何准确评估AI的智能水平成为行业关注的重点。传统的评估基准如MMLU虽然广泛使用，但其局限性逐渐显现，无法全面反映AI在实际应用中的能力。新推出的GAIA基准通过模拟真实世界的复杂问题，强调了AI在多步骤任务中的灵活性与专业化，标志着AI评估方法的重大转变。GAIA基准的出现，将有助于我们更加全面地了解AI的能力，从而更好地指导AI技术的发展方向。例如，我们可以利用GAIA基准来评估不同AI模型在处理实际问题时的表现，从而选择最适合的模型来解决特定的问题。

百元成本炼成开源视频模型Pusa：基于Mochi微调，低成本复现高质量

Pusa是一个基于Mochi微调的开源视频生成模型，具有低成本和完全开源的特点。仅需约100美元的训练成本，Pusa展现出较好的视频生成能力，支持多种生成任务。其开放的微调流程促进了社区的合作与发展，吸引更多研究者参与到视频模型的研究中。Pusa的出现，降低了视频生成技术的门槛，使得更多的研究人员和开发者可以参与到视频生成技术的研究中来。

字节跳动开源项目UNO：图片生成可以保持角色、物体一致性

字节跳动的开源项目UNO在AI图像生成领域取得了重要突破，解决了以往生成图像时角色或物体一致性的问题。通过创新的高一致性数据合成流程和模型设计，UNO能够确保无论是单主体还是多主体场景，生成的图像都能保持特征一致性。UNO的开源，将有助于我们更好地理解和控制AI图像生成过程，从而生成更加符合我们需求的图像。

小鹏汽车推新物理大模型，定位AI汽车公司

小鹏汽车创始人何小鹏在社交媒体上强调了公司作为AI汽车公司的定位，认为人工智能的最大价值在于改变物理世界。他透露小鹏在自动驾驶领域的创新技术，尤其是强化学习与模型蒸馏，使其在行业内具备独特竞争力。此外，小鹏正在训练一个超大规模的物理世界模型，标志着其在AI技术应用上的领先地位。小鹏汽车的举动，表明AI技术正在深刻地改变着汽车行业。

字节跳动布局AI智能眼镜，挑战下一代可穿戴设备市场

字节跳动正在积极研发一款AI智能眼镜，旨在将先进的人工智能功能与高质量影像捕捉相结合，提供创新的用户体验。该设备将集成字节跳动自研的“豆包”AI模型，增强智能交互能力，用户可通过语音指令等方式与眼镜互动。项目已进入实质性研发阶段，字节跳动与供应链伙伴展开沟通，推动产品的功能设计与上市计划。字节跳动进军AI智能眼镜市场，预示着可穿戴设备领域将迎来新的变革。

总而言之，今日的AI日报为我们呈现了一个充满活力和创新的人工智能领域。从模型开源到平台升级，从硬件创新到评估方法变革，AI技术正在不断地进步和发展，为我们的生活和工作带来更多的便利和可能性。我们有理由相信，在不久的将来，人工智能将会在更多的领域发挥出重要的作用。