AI前沿:Kimi-VL、Skywork-OR1等模型引领技术创新

0

在人工智能领域,创新与突破层出不穷。2025年4月14日,一系列引人注目的AI技术进展再次刷新了我们对AI潜力的认知。从昆仑万维开源的Skywork-OR1系列模型,到iFlytek Xingchen Agent平台全面支持MCP,再到Kimi开源的视觉-语言模型Kimi-VL,每一项进展都预示着AI技术在不同领域的蓬勃发展。

Kimi-VL:轻量级架构,超越GPT-4o的视觉-语言模型

Moonshot AI开源的Kimi-VL和Kimi-VL-Thinking视觉-语言模型,以其卓越的多模态理解和推理能力,成为了业界的焦点。这两款模型采用了轻量级的MoE架构,仅有30亿参数,却在多个基准测试中超越了GPT-4o。Kimi-VL系列在数学推理、Agent操作和高分辨率图像处理方面表现出色,支持超长上下文理解,展现了广泛的应用潜力。

image.png

Kimi-VL和Kimi-VL-Thinking模型的轻量级架构,使其在实际应用中具有更高的效率。在MathVision和ScreenSpot-Pro测试中,Kimi-VL分别取得了36.8%和34.5%的优异成绩,充分证明了其强大的推理能力。此外,该模型支持高达128K tokens的上下文输入,使其能够处理长篇文档和视频分析等复杂任务。这种强大的上下文处理能力,为Kimi-VL在金融、医疗等领域的应用提供了坚实的基础。

iFlytek Star Agent平台:全面支持MCP,加速Agent应用开发

iFlytek宣布其Star Agent开发平台全面支持MCP,旨在帮助开发者高效构建Agent应用。该平台不仅支持轻松配置和调用行业领先的MCP Server,还允许一键部署自定义MCP Server,真正实现了“即插即用”。首批支持的MCP Server覆盖多个行业,推动了AI应用中间件的标准化。

image.png

iFlytek Star Agent平台的MCP支持,为开发者提供了极大的便利。开发者可以轻松配置和调用行业领先的MCP Server,同时支持一键部署自定义MCP Server,极大地简化了开发流程。首批支持的20多个行业领先的MCP Server,覆盖了AI能力和生活服务,为开发者提供了丰富的选择。该平台还支持无代码和低代码创建模式,赋能个人和企业快速开发大型模型应用。这种灵活的开发模式,降低了AI应用的开发门槛,使得更多人能够参与到AI应用的创新中来。

Skywork-OR1:昆仑万维开源,数学与代码能力卓越

昆仑万维的Tiangong团队发布了升级后的Skywork-OR1系列模型,标志着在逻辑推理和复杂任务解决方面取得了重大突破。该系列包括三款高性能模型,专门针对数学和代码领域,展示了卓越的推理能力和成本效益。Skywork-OR1-32B-Preview在竞争性编程任务中表现尤为出色,展示了其训练策略的进步。

image.png

Skywork-OR1系列模型在逻辑理解和复杂任务解决方面取得了行业领先的推理性能。该系列包括三款高性能模型:Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview,满足了不同的需求。其中,Skywork-OR1-32B-Preview在竞争性编程任务中表现突出,接近DeepSeek-R1的能力,展现了卓越的成本效益。这一系列的开源模型,为研究者和开发者提供了宝贵的资源,促进了AI技术在数学和代码领域的应用。

Seed-Thinking-v1.5:ByteDance的推理AI新力量

ByteDance的新大型语言模型Seed-Thinking-v1.5,在推理AI竞赛中展现出强大的能力。该模型采用混合专家架构,在多个基准测试中超越了行业巨头,特别是在科学、技术、数学和工程领域。通过技术创新和高效的训练方法,Seed-Thinking-v1.5不仅提高了推理能力,还在非推理任务中表现出色。

image.png

ByteDance推出的Seed-Thinking-v1.5,专注于STEM领域,采用混合专家架构,在多个基准测试中超越了谷歌和OpenAI的产品。该模型利用先进的训练技术和强化学习框架,提高了模型性能和效率。Seed-Thinking-v1.5的推出,标志着ByteDance在AI推理领域的实力进一步增强,为AI技术在科学研究和工程应用中的发展注入了新的动力。

SenseCore 2.0:SenseTime全面升级AI基础设施

在2025 SenseTime技术交流日上,SenseTime宣布全面升级其SenseCore 2.0大规模AI基础设施,旨在为企业提供高效灵活的全栈AI基础设施服务。此次升级解决了大型模型行业的三大挑战,并通过技术创新显着提高了计算能力利用率和推理性能。此外,SenseTime已投资1亿元人民币的特殊代金券,以帮助各行业加速AI实施。

image.png

SenseCore 2.0的全面升级,增强了AI基础设施服务的成本效益和灵活性。SenseTime与Songying Technology建立了战略合作伙伴关系,以促进具身智能技术的发展,并解决智能实施的挑战。SenseTime投资1亿元人民币的代金券,旨在为企业提供从咨询到模型训练的全流程AI服务。这一举措,将加速AI技术在各行各业的落地应用,推动产业智能化升级。

Veo 2:Google AI Studio开放有限免费试用

Google AI Studio最近向部分用户开放了其Veo 2视频模型的有限免费试用,引起了广泛关注。Veo 2是最新一代的AI视频生成工具,支持高达4K分辨率和逼真的物理模拟,展示了其强大的技术能力。然而,试用访问受到严格限制,用户不确定冷却时间和未来使用情况。

image.png

Google DeepMind开发的Veo 2视频模型,支持高达4K分辨率,展示了卓越的生成能力。试用访问受到限制,用户报告冷却时间不明确,这可能会影响体验。Google严格控制生成的内容,以确保用户隐私和安全。Veo 2的推出,为视频创作领域带来了新的可能性,但其有限的试用策略,也引发了人们对其未来发展方向的关注。

InternVL3:上海AI Lab开源多模态大语言模型

OpenGVLab于4月11日发布了InternVL3系列模型,标志着多模态大型语言模型领域的一个新里程碑。该系列包括从1B到78B参数的各种大小的模型,能够处理文本、图像和视频,并且性能显着提高。与其前身相比,InternVL3在多模态感知和推理方面取得了显着进步,扩展了工具使用、工业图像分析等方面的能力。

image.png

InternVL3系列模型支持从1B到78B参数的各种大小,展示了卓越的多模态处理能力。与InternVL2.5相比,InternVL3在多模态感知和推理方面显示出显着改进,支持多个图像和视频数据。该模型可以通过LMDeploy的api_server部署为与OpenAI兼容的API,允许用户轻松调用该模型。InternVL3的开源,为多模态大语言模型的研究和应用提供了新的平台,将推动AI技术在更多领域的创新。

GAIA:革命性的AI“智商”测试

随着人工智能技术的快速发展,准确评估人工智能的智能水平已成为行业关注的关键问题。像MMLU这样的传统评估基准虽然被广泛使用,但越来越显示出局限性,未能充分反映人工智能在实际应用中的能力。新推出的GAIA基准模拟了复杂的现实世界问题,强调了人工智能在多步骤任务中的灵活性和专业化,标志着人工智能评估方法的一个重大转变。

image.png

新的GAIA基准旨在评估人工智能在现实世界应用中的能力,涵盖多模态理解和复杂推理等关键技能。在MMLU等传统基准上的高分并不一定反映人工智能的真实能力;在实际应用中的性能差异显着。GAIA基准的初步结果表明,灵活的模型在复杂任务中的表现优于其他知名模型。GAIA的推出,为AI的评估提供了一个更为全面和贴近实际的视角,有助于推动AI技术朝着更加实用的方向发展。

Pusa:百元级开源视频模型

Pusa是一个基于Mochi微调的开源视频生成模型,具有低成本和完全开源的特点。Pusa的训练成本约为100美元,展示了良好的视频生成能力,支持各种生成任务。其开放的微调过程促进了社区协作和发展,吸引了更多的研究人员参与视频模型研究。

image.png

Pusa模型的训练成本仅为100美元,远低于传统大型视频模型的数万甚至数十万美元。Pusa是完全开源的,提供完整的代码库和训练方法,允许研究人员重现实验并进行创新。基于Mochi微调,Pusa支持各种视频生成任务。虽然当前分辨率为480p,但它在运动保真度和提示依从性方面显示出潜力。Pusa的低成本和开源特性,降低了视频生成模型的开发门槛,为更多研究者提供了参与其中的机会。

UNO:ByteDance开源项目,保持图像一致性

ByteDance的开源项目UNO在AI图像生成方面取得了重大突破,解决了生成图像中人物或物体不一致的问题。通过创新的高一致性数据合成流程和模型设计,UNO确保生成的图像在单主题或多主题场景中保持一致的特征。

image.png

UNO项目旨在解决AI图像生成中人物一致性的问题,避免“面部失明”。使用高一致性数据合成流程和创新模型设计,UNO提高了图像生成的可控性。支持单主题和多主题场景,确保生成结果的高度一致性。UNO的推出,为AI图像生成领域带来了新的突破,使得生成的图像更加真实和可控。

XPeng Motors:全新物理大模型,定位为AI汽车公司

XPeng Motors创始人何小鹏在社交媒体上强调了该公司作为AI汽车公司的定位,他认为人工智能的最大价值在于改变物理世界。他透露了XPeng在自动驾驶方面的创新技术,特别是强化学习和模型蒸馏,这使其在该行业中具有独特的竞争优势。此外,XPeng正在训练一个超大规模的物理世界模型,这标志着其在AI技术应用方面的领先地位。

image.png

XPeng Motors将自己定位为一家AI汽车公司,强调AI技术在物理世界中的应用价值。引入强化学习和模型蒸馏技术,以增强在自动驾驶领域的竞争力。2025年的新闻发布会将阐明XPeng未来的发展方向,并推出新款X9车型。XPeng Motors的战略转型,预示着AI技术将在汽车行业发挥越来越重要的作用。

ByteDance:进军AI智能眼镜市场

ByteDance正在积极开发AI智能眼镜产品,旨在将先进的AI功能与高质量的图像捕捉相结合,以提供创新的用户体验。该设备将集成ByteDance自主开发的“Doubao”AI模型,从而增强智能交互功能。用户可以通过语音命令和其他方法与眼镜进行交互。该项目已进入实质性研发阶段,ByteDance正在与供应链合作伙伴沟通,以推动产品设计和发布计划。

image.png

ByteDance正在开发AI智能眼镜,集成了先进的AI功能和图像捕捉技术。集成了“Doubao”AI模型,支持语音命令、实时翻译和其他智能交互。计划与供应链合作伙伴沟通,以推动产品设计和发布,挑战Meta等竞争对手。ByteDance进军AI智能眼镜市场,标志着其在可穿戴设备领域的布局,将为用户带来更加智能化和便捷的体验。