AI日报:昆仑万维发布天工智能体,OpenAI核心API更新

3

在人工智能领域,创新浪潮一波接着一波,技术突破和产品革新层出不穷。2025年5月22日,AI领域又有哪些值得关注的进展呢?让我们一起深入了解一下。

百度飞桨PaddleOCR 3.0:精度提升,国产硬件支持

百度飞桨团队开源发布了PaddleOCR 3.0版本,这一举措无疑将推动OCR技术的进一步发展。新版本在文字识别精度上实现了显著提升,尤其是在多语种、手写体识别以及文档解析能力方面。更重要的是,PaddleOCR 3.0新增了对国产硬件的支持,这对于推动国内人工智能产业的自主可控具有重要意义。

image.png

PP-OCRv5作为全场景文字识别模型,支持五种文字类型识别,整体精度提升13%,并且能够实现无缝部署,这为各种应用场景提供了更强大的支持。

PP-StructureV3则专注于文档解析,强化了版面检测和表格识别等能力,在高精度解析方面表现卓越,能够满足复杂文档处理的需求。

PP-ChatOCRv4结合了文心大模型,关键信息抽取精度提升15%,能够支持复杂文档处理,为智能文档理解提供了更强大的解决方案。

昆仑万维天工超级智能体:AI Office革命,成本优势显著

昆仑万维发布的天工超级智能体,是一款基于自研Deep Research技术的AI Office智能代理。这款产品以其强大的多模态内容生成能力和成本优势,引发了全球AI社区的广泛关注。据称,天工超级智能体的成本仅为OpenAI的40%,这无疑将使其在市场上更具竞争力。

image.png

天工超级智能体采用了多智能体架构,包含5个专家智能体和1个通用智能体,支持一站式生成多种办公内容。这种架构设计使得天工超级智能体能够胜任各种复杂的办公任务。

其核心技术Deep Research模型不仅成本低,而且效率高,在GAIA基准测试中以82.42分超越了OpenAI Deep Research,证明了其强大的技术实力。

开源框架和低成本部署策略使得天工成为中小企业和个人开发者的理想选择,有助于推动AI技术的普及。

OpenAI核心API支持MCP:简化智能体开发流程

OpenAI的Responses API新增了MCP支持,此举旨在大幅降低AI模型与外部工具集成的难度。通过MCP(Model Control Protocol),开发者可以更加便捷地将AI模型与各种外部工具连接起来,从而构建更加强大的AI智能体。

image.png

除了MCP支持外,OpenAI还推出了多项功能升级,如图像生成、代码解释器和优化的文件搜索功能,这些都将极大地提升开发效率。

MCP正在成为AI智能体开发的事实标准,它将推动跨平台协作与灵活性,为AI智能体的发展带来更多可能性。

xAI推出网页搜索API:Live Search,赋能AI实时获取内容

xAI正式推出了Live Search API,这项功能让开发者可以利用Grok模型实时搜索来自多种数据源的信息,极大提升了AI应用的动态信息处理能力。目前,此API处于免费公测阶段,为开发者提供了强大的工具来简化搜索逻辑和数据整合,这标志着AI在信息获取和处理方面迈出了重要一步。

image.png

Live Search API支持自主搜索决策,Grok能根据对话上下文自动判断是否需要搜索,无需人工干预,这使得AI应用能够更加智能地响应用户的需求。

该API提供多样化的数据源,包括X平台、网页、新闻和RSS提要,确保信息全面且实时更新,为AI应用提供了可靠的数据支持。

Live Search API具有高度的灵活性和高效的集成性,支持多种SDK,开发者可以轻松调整基础URL和API密钥实现快速接入,从而快速构建各种AI应用。

谷歌Sparkify:复杂知识秒变动画短片

谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为直观的动画短视频,适用于教育、科普和内容创作领域。这为知识传播和学习提供了一种全新的方式。

image.png

通过动画短视频直观呈现复杂知识点,能够显著提升理解效率,使得学习过程更加生动有趣。

利用Gemini2.5和Veo2模型,可以快速生成高质量的动画视频,为内容创作者提供了强大的工具。

Sparkify支持多语言扩展,未来将覆盖更多地区和人群,让更多人能够从中受益。

Mistral:重返开源阵营,发布超高效代码AI模型Devstral

Mistral AI 发布了全新开源语言模型 Devstral,这款轻量级模型专为代理 AI 软件开发设计,性能优越且支持本地运行,展现了开源社区合作的力量。此举无疑将推动AI在软件开发领域的应用。

Devstral 拥有2400万参数,基于 Apache2.0许可证发布,允许自由部署和商业化,为开发者提供了极大的便利。

Devstral 性能卓越,在 SWE-Bench 验证中超越多数闭源模型,适用于本地和私有化应用场景,为企业提供了更多选择。

作为 Codestral 系列最新进展,Devstral 支持跨文件上下文理解,适合复杂软件开发任务,能够胜任各种复杂的编码工作。

Video Ocean:2K/4K HDR视频生成工具,性价比引爆全网

潞晨科技推出全新AI视频生成工具Video Ocean,支持快速生成高质量大片,提供多种特效与功能,价格低廉且完全免费,掀起创作热潮。这为视频创作领域带来了新的可能性。

QQ20250522-092505.png

Video Ocean支持在5-10秒内生成2K/4K HDR高质量视频,适合各种场景创作,为用户提供了极大的便利。

该工具提供海量模板与特效,如Laugh、Cakeify等,新手也能轻松制作专业级视频,降低了视频创作的门槛。

Video Ocean的价格仅为可灵2.0的1/10,完全免费,吸引了多类用户群体的好评,成为了视频创作领域的一匹黑马。

谷歌SynthID Detector:助力识别AI生成内容

谷歌推出了名为SynthID Detector的新工具,旨在帮助用户检测内容是否由其AI工具生成。该工具能识别AI生成的内容并突出显示带有SynthID水印的部分,目前正面向早期测试者推出。这对于维护内容真实性和版权具有重要意义。

image.png

SynthID Detector是一款新工具,用于识别AI生成的内容,支持图像、文本、音频和视频,覆盖了各种类型的内容。

该工具可自动扫描上传内容,查找并突出显示SynthID水印,为用户提供了便捷的检测方式。

SynthID Detector当前仅向早期测试者开放,未来将逐步推广至更多用户,让更多人能够使用该工具。

谷歌AI笔记工具NotebookLM:迅猛崛起

谷歌推出的AI辅助知识管理工具NotebookLM在过去半年内月访问量增长56%,以其创新功能如‘音频概览’、多语言支持及多样化应用场景受到广泛关注。这表明AI在知识管理领域具有巨大的潜力。

image.png

NotebookLM月访问量增长56%,成为了AI应用领域的一匹黑马,备受用户青睐。

该工具支持50多种语言生成播客内容,打破了语言障碍,提升了用户体验,让更多人能够使用该工具。

NotebookLM适用于学生、研究者及内容创作者,从学术到娱乐均能高效使用,应用场景广泛。

硅基流动:升级DeepSeek-R1等推理模型API,支持128K上下文长度

硅基流动通过升级其推理模型API,显著提升了最大上下文长度至128K,增强了模型的推理能力和输出质量。此举将极大地提升AI模型的性能。

image.png

通过支持128K最大上下文长度,大幅提升了模型的思考深度与输出完整性,使得模型能够处理更复杂的任务。

引入独立控制思维链与回复内容长度功能,增强了开发者对模型行为的精准调控,为开发者提供了更大的灵活性。

当达到长度限制时,模型输出会被截断并标记原因,确保使用透明性,让用户能够了解模型的工作方式。

谷歌DeepMind:发布新AI音乐生成模型Lyria2,支持实时创作

Lyria2是谷歌DeepMind发布的最新音乐生成模型,具备高保真音质、实时交互功能和多风格适配性,为音乐创作带来了革命性的变化。这为音乐家和音乐爱好者提供了强大的创作工具。

image.png

Lyria2能够生成48kHz立体声音频,精准捕捉音乐细节,适用于专业音乐制作及商业项目,为音乐创作提供了高质量的音频。

Lyria RealTime功能让用户可以即时调整音乐风格、节奏等,激发创作灵感,为音乐创作带来了更多可能性。

Lyria2整合到Music AI Sandbox工具集,支持文本、乐谱或音频片段输入,覆盖多种音乐风格,为音乐创作提供了全方位的支持。

多模态大模型MMaDA:让AI学会「跨次元思考」

MMaDA是由多所顶尖高校和企业联合研发的多模态大模型,以其独特的统一扩散架构、混合长链式思考微调及统一强化学习算法,实现了文本、图像等多模态间的无缝切换和深度推理,表现远超GPT-4等现有模型。这标志着AI在多模态理解和推理方面取得了重要进展。

image.png

MMaDA的统一扩散架构突破了传统多模态模型的壁垒,实现了文本、图像等数据类型的无缝处理,为多模态AI的发展奠定了基础。

通过跨模态推理对齐,MMaDA让AI具备了深度思考能力,能够更好地理解和处理复杂的多模态任务。

统一强化学习算法UniGRPO兼顾推理与生成任务,全面提升了AI性能,为多模态AI的应用提供了更强大的支持。

微软:发布Web智能体Magentic-UI,解决复杂网页任务

微软发布的Web智能体Magentic-UI,专门设计用于解决复杂的网页任务。它以人为本,强调透明性和可控性,让用户在使用AI助手时感到安心。

Magentic-UI 是一款以人为中心的AI智能体研究原型,通过网页浏览器实时协助用户完成复杂任务,提升了用户的工作效率。

Magentic-UI引入协作规划和行为防护功能,确保用户在自动化过程中保持主导权,同时保障安全性和灵活性,让用户能够放心地使用AI助手。

Magentic-UI由多智能体协同工作,支持计划学习,能从历史任务中优化未来任务的自动化效率,不断提升自身的性能。

Framer:发布全新AI功能,引爆设计新热潮

Framer在I/O2025期间推出了全新AI功能套件,包括Wireframer、Workshop、Advanced Analytics和Vectors2.0,通过AI驱动的网站布局生成、交互组件设计、矢量绘图升级和高级分析工具,显著降低了网站创建的成本和复杂度。这为网站设计和开发带来了新的机遇。

Wireframer通过自然语言提示快速生成网站布局,极大降低了设计门槛,让更多人能够参与到网站设计中来。

Workshop通过对话生成交互组件,减少了设计与开发间沟通成本,提升了协作效率,为团队协作带来了便利。

Advanced Analytics提供A/B测试与漏斗分析,优化网站性能和用户体验,帮助网站开发者更好地了解用户需求。

总的来说,今天AI领域的进展涵盖了OCR技术、AI Office、智能体开发、网页搜索、知识转化、代码生成、视频制作、内容识别、知识管理、推理模型、音乐生成、多模态理解、Web智能体和网站设计等多个方面。这些技术和产品的不断创新,将为各行各业带来新的机遇和挑战。