AI日报:ChatGPT记忆开放,多模态AI OmniFlow亮相

1

在人工智能领域,每一天都充满了变革与创新。今天的AI日报涵盖了从大型语言模型的能力扩展到具体行业应用的多个方面,展现了AI技术在各个领域的渗透和深化。让我们一起深入了解这些最新进展,洞察AI技术的未来趋势。

ChatGPT 记忆功能的免费开放

OpenAI 宣布将其记忆功能免费向所有 ChatGPT 用户开放,这是一个重要的里程碑。过去,这项功能只对付费用户开放,而现在,即使是免费用户也能体验到一定程度的个性化对话体验。记忆功能允许 ChatGPT 记住用户之前的对话内容和偏好,从而在后续的交互中提供更贴合用户需求的回复。这种功能的普及,无疑将大大提升用户与 AI 交互的便捷性和效率。

aibase

对于开发者而言,这意味着他们可以更容易地构建出更智能、更人性化的 AI 应用。通过利用 ChatGPT 的记忆功能,开发者可以创建能够理解用户上下文、提供个性化服务的聊天机器人、虚拟助手等。这种个性化能力对于提升用户体验至关重要,尤其是在客户服务、在线教育等领域。

蚂蚁集团的 “AI 健康管家”

蚂蚁集团推出的 “AI 健康管家” 通过了中国信息通信研究院的医疗健康行业大模型可信评估,成为首批通过评估的产品之一。这不仅是对蚂蚁集团在医疗 AI 领域技术实力的认可,也为整个行业树立了标杆。该产品已经服务超过 4000 万用户,并有 60 多位知名医生 AI 智能体入驻,为用户提供预约医生、健康评估、医疗报告解读等个性化服务。

“AI 健康管家” 的核心在于其强大的数据处理和分析能力。通过整合大量的医疗数据和专业知识,该产品能够为用户提供准确、可靠的健康建议和指导。这种智能化的健康管理方式,不仅能够帮助用户更好地了解自己的身体状况,还能够提高医疗资源的利用效率,缓解医疗压力。

Anthropic 的 MCP 免费课程

Anthropic 与 DeepLearning.AI 合作推出了一门关于使用 MCP 构建 AI 应用程序的免费课程。MCP(Model Context Protocol,模型上下文协议)是一种通用协议,旨在标准化 LLM 与外部数据源的交互方式,提升上下文处理能力。这门课程的推出,无疑将加速 MCP 协议的普及和应用,推动 AI 开发的标准化与跨领域融合。

微信截图_20250604085714.png

对于开发者而言,掌握 MCP 协议意味着可以更轻松地构建出能够与外部工具和数据进行交互的智能 AI 应用。这种能力对于构建复杂的 AI 系统至关重要,尤其是在金融、法律、科研等领域,这些领域通常需要处理大量的结构化和非结构化数据。

谷歌 DeepMind 的 “力提示” 技术

谷歌 DeepMind 团队与布朗大学合作开发了一种名为 “力提示” 的新技术,该技术无需 3D 模型和物理引擎即可生成逼真的运动效果。用户只需指定力的方向和强度,就能操控 AI 生成的视频内容。这项技术的突破之处在于,它摆脱了对传统 3D 建模和物理仿真的依赖,大大降低了生成高质量运动视频的门槛。

image.png

“力提示” 技术的应用前景非常广阔。在游戏开发领域,开发者可以利用该技术快速生成各种角色的运动动画,而无需进行繁琐的手动调整。在电影制作领域,该技术可以用于创建逼真的特效场景,例如爆炸、碰撞等。此外,该技术还可以应用于虚拟现实、增强现实等领域,为用户带来更沉浸式的体验。

Exa 与 OpenRouter 合作的网络搜索功能

Exa 与 OpenRouter 合作,为超过 400 种大语言模型提供实时网络搜索功能。这意味着这些模型现在可以动态获取最新的网络信息,突破了传统知识更新的局限。这种基于 RAG(Retrieval-Augmented Generation,检索增强生成)技术的增强,将极大地提升 AI 的交互体验。

对于开发者而言,这意味着他们可以构建出能够回答更复杂、更具时效性问题的 AI 应用。例如,一个金融领域的 AI 助手,可以利用实时网络搜索功能,为用户提供最新的市场分析和投资建议。这种能力对于提升 AI 应用的实用性和竞争力至关重要。

中国知网推出 CNKI AI

中国知网推出了基于人工智能技术的全新探索成果——CNKI AI。该平台通过 AI 学术研究助手与增强检索的整合,提供更加精准、全面的知识服务。CNKI AI 的核心在于其高质量的数据和可信可控的特性,这确保了服务的高效、精准和可靠。

image.png

对于科研人员而言,CNKI AI 提供了一个强大的研究工具。通过问答式增强检索和生成式知识服务,科研人员可以更快速地找到所需的文献资料,并从中提取有用的信息。此外,CNKI AI 还可以帮助科研人员发现新的研究方向,促进学术创新。

Anthropic 推出 Claude Explains 博客项目

Anthropic 推出了名为 'Claude Explains' 的博客项目,展示其 AI 模型 Claude 在内容创作中的能力。博客内容由 Claude AI 生成并经人类专家编辑,首批文章聚焦技术主题,未来计划扩展至更多领域。这一举措不仅展示了 Claude AI 的强大能力,也探索了 AI 与人类专家协作的新模式。

image.png

对于内容创作者而言,Claude Explains 提供了一个新的思路。AI 可以作为内容创作的助手,帮助创作者快速生成初稿、提供创意灵感。而人类专家则可以对 AI 生成的内容进行编辑和润色,确保内容的专业性和可读性。这种人机协作的模式,有望大大提高内容创作的效率和质量。

Claude Pro 的功能升级

Anthropic 宣布 Claude Pro 新增研究模式和远程 MCP 整合功能,进一步提升了 AI 助手的实用性和生产力。研究模式可以将复杂的研究任务从小时级压缩到分钟级,极大地提高了研究效率。而远程 MCP 整合功能则使 Claude Pro 用户能够无缝连接多种工具,简化跨平台协作。

image.png

这些功能的升级,使得 Claude Pro 在功能和价格上更具竞争力,有望吸引更多用户使用。对于需要处理大量研究任务、进行跨平台协作的专业人士而言,Claude Pro 无疑是一个强大的助手。

Fish Audio 的 OpenAudio S1

Fish Audio 推出的 OpenAudio S1 是一款基于大量数据训练的文本转语音模型。该模型不仅在语音自然度和情感表达方面表现突出,还提供了灵活的双版本选择,为企业和开发者提供了高效且经济的语音生成解决方案。

image.png

OpenAudio S1 的应用前景非常广阔。在语音助手领域,该模型可以用于生成更自然、更具情感的语音回复,提升用户体验。在内容创作领域,该模型可以用于将文本内容转化为有声读物、语音广告等。此外,该模型还可以应用于教育、娱乐等领域,为用户带来更丰富的互动体验。

OpenAI Codex 的升级

OpenAI 对其编程工具 Codex 进行了全面升级,新增了语音输入和联网能力,同时降低了使用门槛,提升了开发者的编程效率。新增的联网功能使得 Codex 可以自动完成环境配置、代码检查和测试,开发者可以更专注于逻辑和功能实现。而语音输入功能则让开发者能够更自然地传达指令,提高工具易用性。

对于开发者而言,Codex 的升级无疑是一个福音。通过利用 Codex 的强大能力,开发者可以更快速地编写代码、调试程序,提高开发效率。此外,Codex 还可以帮助开发者学习新的编程语言和技术,拓展技能。

OpenAI 升级 AI 智能体开发工具

OpenAI 对其 AI 智能体开发工具进行了重要升级,包括新增 TypeScript 支持、优化语音界面、增强可观测性以及改进语音对语音模型。这些升级使得开发者可以更轻松地构建出功能更强大、交互更自然的 AI 智能体。

image.png

TypeScript 的支持使得 JavaScript 和 Node.js 开发者也能参与智能体开发,扩大了开发者的范围。RealtimeAgent 功能则支持低延迟语音应用,可暂停执行并手动确认智能体状态,适合监管场景。而语音模型改进则降低了延迟、提高了对话自然性与中断处理能力。

华为 WATCH5 智能手表接入双大模型

华为正式发布 WATCH5 智能手表,通过接入盘古大模型和 DeepSeek 大模型,在语音交互、健康监测及生态互联方面实现突破性提升。这意味着 WATCH5 不仅是一款智能手表,更是一个强大的 AI 助手。

image.png

WATCH5 支持双 AI 大模型,语音交互更便捷且健康数据分析更精准。腕上小艺功能可分析 20+ 运动与健康领域近 200 项指标,提供个性化指导。此外,WATCH5 还支持生态互联,兼容华为设备及其他第三方健康管理平台,助力全面健康生活。

DeepSeek 模型训练数据来源争议

DeepSeek 最近发布的 R1 推理 AI 模型更新版在多项基准测试中表现出色,但其训练数据来源引发争议。有开发者指出其模型与 Google Gemini 系列有相似之处,且 DeepSeek 此前也被指控通过 “数据蒸馏” 技术训练模型。尽管如此,AI 界普遍认为这种现象可能源于模型间的相互模仿。

这一事件引发了人们对 AI 模型训练数据来源的关注。在 AI 领域,数据是模型训练的基础,数据的质量和来源直接影响模型的性能和可靠性。因此,如何保证数据的合规性和透明度,是 AI 领域面临的一个重要挑战。

松下推出 “OmniFlow” 多模态生成 AI

松下控股公司联合 UCLA 研究人员开发了名为 “OmniFlow” 的多模态生成 AI,具备 “任意对任意” 生成能力,可实现文本、图像和音频间的自由转换,降低数据采集成本并提升生成效率。

image.png

“OmniFlow” 的创新之处在于其强大的多模态生成能力。通过该技术,用户可以将文本内容转化为图像、音频,也可以将图像转化为文本、音频,甚至可以将音频转化为文本、图像。这种能力对于拓展 AI 的应用场景具有重要意义,尤其是在内容创作、教育、娱乐等领域。