在人工智能领域日新月异的今天,每日的行业动态都充满了变革与机遇。让我们一同走进【AI Daily】专栏,探索最新的AI技术趋势和创新应用,为开发者们提供前沿的参考和启发。
Kimi-VL系列:视觉语言模型的突破
近日,Moonshot AI开源了其备受瞩目的Kimi-VL及Kimi-VL-Thinking视觉语言模型。这两款模型以其卓越的多模态理解和推理能力,在业界引起了广泛关注。值得一提的是,Kimi-VL系列采用了轻量级的MoE(Mixture of Experts)架构,仅用30亿参数,便在多个基准测试中超越了强大的GPT-4o模型,实属不易。Kimi-VL系列在数学推理、智能体操控和高分辨率图像处理等领域表现出色,同时支持超长上下文理解,展现了其在多种应用场景下的巨大潜力。
Kimi-VL和Kimi-VL-Thinking的成功,不仅在于其轻量化设计,更在于其强大的性能表现。在MathVision和ScreenSpot-Pro测试中,Kimi-VL分别取得了36.8%和34.5%的优异成绩,充分证明了其卓越的推理能力。此外,该模型支持高达128K tokens的上下文输入,使其能够胜任长文档和视频分析等复杂任务,进一步拓宽了其应用范围。
iFlytek Star Agent:赋能Agent应用开发
iFlytek(科大讯飞)宣布其iFlytek Star Agent开发平台全面支持MCP(模型组合平台),旨在帮助开发者高效构建Agent应用。该平台不仅支持便捷配置和调用行业领先的MCP服务器,还允许一键部署自定义MCP服务器,真正实现了“即插即用”。首批支持的MCP服务器覆盖多个行业,有望推动AI应用中间件的标准化。
iFlytek Star Agent平台的亮点在于其易用性和灵活性。开发者可以轻松配置和调用行业领先的MCP服务器,并支持自定义MCP服务器的一键部署,极大地简化了Agent应用的开发流程。此外,该平台还提供了无代码和低代码的创建模式,赋能个人和企业快速开发大模型应用,降低了AI应用的开发门槛。
昆仑万维Skywork-OR1:数学与代码能力的飞跃
昆仑万维旗下天工团队于4月13日发布了升级后的Skywork-OR1系列模型,标志着其在逻辑推理和复杂任务解决能力上取得了显著突破。该系列包含三款高性能模型,专门针对数学和代码领域进行了优化,展现了卓越的推理能力和成本效益。其中,Skywork-OR1-32B-Preview在竞争性编程任务中表现尤为出色,凸显了其训练策略的先进性。
Skywork-OR1系列模型的发布,是昆仑万维在AI领域持续投入和创新的结果。该系列模型在逻辑理解和复杂任务解决方面达到了行业领先水平,为开发者提供了强大的工具。Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型,分别满足了不同应用场景的需求。尤其值得一提的是,Skywork-OR1-32B-Preview在竞争性编程任务中的出色表现,使其在成本效益方面更具优势。
ByteDance Seed-Thinking-v1.5:推理AI的新星
ByteDance(字节跳动)推出的新型大型语言模型Seed-Thinking-v1.5,在推理AI竞赛中展现出强大的实力。该模型采用了Mixture of Experts架构,在多个基准测试中超越了行业巨头,尤其是在科学、技术、数学和工程领域表现突出。通过技术创新和高效的训练方法,Seed-Thinking-v1.5不仅提高了推理能力,还在非推理任务中表现出色。
Seed-Thinking-v1.5的成功,归功于ByteDance在AI领域的持续投入和创新。该模型专注于STEM(科学、技术、数学和工程)领域,并采用了先进的Mixture of Experts架构,使其在多个基准测试中脱颖而出,超越了Google和OpenAI等公司的产品。此外,Seed-Thinking-v1.5还采用了先进的训练技术和强化学习框架,进一步提升了模型的性能和效率。
SenseTime SenseCore 2.0:AI基础设施的升级
在2025 SenseTime技术交流日上,SenseTime(商汤科技)宣布对其SenseCore 2.0大规模AI基础设施进行全面升级,旨在为企业提供高效且灵活的全栈AI基础设施服务。此次升级解决了大模型行业面临的三大挑战,并通过技术创新显著提高了算力利用率和推理性能。此外,SenseTime还投入1亿元人民币的专项代金券,助力各行业加速AI落地。
SenseCore 2.0的全面升级,是SenseTime在AI基础设施领域的重要里程碑。此次升级旨在提升AI基础设施服务的成本效益和灵活性,更好地满足企业的需求。同时,SenseTime还与Songying Technology(松应科技)建立了战略合作伙伴关系,共同推动具身智能技术的发展,解决智能实施的挑战。此外,SenseTime还投入巨额资金,为企业提供从咨询到模型训练的全流程AI服务支持。
Google Veo 2:视频模型的免费试用
Google AI Studio近日面向部分用户开放了Veo 2视频模型的限时免费试用,引发了广泛关注。Veo 2作为最新一代AI视频生成工具,支持高达4K分辨率和逼真的物理模拟,展现了其强大的技术实力。然而,试用资格受到严格限制,用户对冷却时间和未来使用情况仍存在不确定性。
Veo 2视频模型的推出,是Google DeepMind在AI视频生成领域的又一重要进展。该模型支持高达4K分辨率,展现了卓越的生成能力。然而,由于试用资格受到限制,用户对冷却时间等问题存在疑虑,这可能会影响用户体验。同时,Google对生成内容进行严格控制,以确保用户隐私和安全。
Shanghai AI Lab InternVL3:多模态大语言模型的新篇章
OpenGVLab于4月11日发布了InternVL3系列模型,标志着多模态大语言模型领域迎来了一个新的里程碑。该系列包含从10亿到780亿参数的多种规模模型,能够处理文本、图像和视频,并且性能得到了显著提升。与之前的InternVL2.5相比,InternVL3在多模态感知和推理方面取得了重大进展,扩展了工具使用、工业图像分析等方面的能力。
InternVL3系列模型的发布,是Shanghai AI Lab在多模态大语言模型领域的又一重要贡献。该系列模型支持多种规模,展现了卓越的多模态处理能力。与InternVL2.5相比,InternVL3在多模态感知和推理方面实现了显著的改进,并支持多种图像和视频数据。此外,该模型可以通过LMDeploy的api_server部署为OpenAI兼容的API,方便用户调用。
GAIA基准:AI“智商”测试的革新
随着AI技术的快速发展,准确评估AI的智能水平已成为行业关注的焦点。传统的评估基准(如MMLU)虽然被广泛使用,但其局限性日益显现,无法完全反映AI在实际应用中的能力。新推出的GAIA基准模拟了复杂的现实世界问题,强调AI在多步骤任务中的灵活性和专业性,标志着AI评估方法的一次重大转变。
GAIA基准的推出,旨在更全面地评估AI在现实世界应用中的能力。该基准涵盖了多模态理解和复杂推理等关键技能,能够更准确地反映AI的实际表现。研究表明,在传统基准测试中取得高分的模型,在实际应用中的表现可能并不理想。GAIA基准的初步结果显示,灵活的模型在复杂任务中表现优于其他知名模型。
Pusa:百元级开源视频模型
Pusa是一款基于Mochi微调的开源视频生成模型,以低成本和完全开源为特点。Pusa的训练成本约为100美元,但却展现了良好的视频生成能力,支持多种生成任务。其开放的微调过程促进了社区协作和发展,吸引了更多研究人员参与视频模型研究。
Pusa模型的出现,降低了视频生成模型的开发门槛。与传统的大型视频模型相比,Pusa的训练成本极低,仅为约100美元。同时,Pusa完全开源,提供了完整的代码库和训练方法,方便研究人员进行复现和创新。Pusa基于Mochi微调,支持多种视频生成任务。虽然当前的分辨率为480p,但在运动保真度和提示遵循方面展现了潜力。
ByteDance UNO:保持角色和对象一致性的图像生成
ByteDance的开源项目UNO在AI图像生成领域取得了重大突破,解决了生成图像中角色或对象不一致的问题。通过创新的高一致性数据合成流程和模型设计,UNO确保生成的图像保持一致的特征,无论是在单主体还是多主体场景中。
UNO项目的目标是解决AI图像生成中角色一致性的问题,避免出现“面部失明”现象。UNO通过使用高一致性数据合成流程和创新的模型设计,提高了图像生成的可控性。该项目支持单主体和多主体场景,确保生成结果具有高度一致性。
XPeng Motors:AI汽车公司的定位
XPeng Motors(小鹏汽车)创始人何小鹏在社交媒体上强调了公司作为AI汽车公司的定位,认为人工智能的最大价值在于改变物理世界。他透露了XPeng在自动驾驶领域的创新技术,尤其是在强化学习和模型蒸馏方面的应用,使其在行业中具有独特的竞争优势。此外,XPeng正在训练一个超大规模的物理世界模型,标志着其在AI技术应用方面的领先地位。
XPeng Motors将自身定位为AI汽车公司,强调AI技术在物理世界中的应用价值。通过引入强化学习和模型蒸馏等技术,XPeng旨在提升其在自动驾驶领域的竞争力。此外,XPeng正在训练一个超大规模的物理世界模型,表明其在AI技术应用方面处于领先地位。在2025年的新闻发布会上,XPeng将阐明其未来的发展方向,并推出新款X9车型。
ByteDance:进军AI智能眼镜市场
ByteDance正在积极开发一款AI智能眼镜产品,旨在将先进的AI功能与高质量的图像捕捉相结合,为用户提供创新的体验。该设备将集成ByteDance自主研发的“Doubao” AI模型,增强智能交互能力。用户可以通过语音命令等方式与眼镜进行交互。该项目已进入实质性研发阶段,ByteDance正在与供应链合作伙伴沟通,以推进产品设计和发布计划。
ByteDance正在开发AI智能眼镜,将先进的AI功能与图像捕捉技术相结合。通过集成“Doubao” AI模型,该设备将支持语音命令、实时翻译等智能交互功能。ByteDance计划与供应链合作伙伴沟通,以推进产品设计和发布,从而挑战Meta等竞争对手。