AI前沿：Kimi音频模型、Step1X图像编辑、夸克AI搜图及更多

欢迎来到【AI Daily】专栏！在这里，我们每日与您一同探索人工智能的最新动态。我们将聚焦于开发者，为您呈现最新鲜的AI资讯，助您掌握技术发展趋势，深入了解创新AI产品的应用。

1. Moonshot AI发布Kimi-Audio：开源音频基础模型的新标杆

Moonshot AI近期推出了Kimi-Audio，这是一款旨在推动音频理解、生成与交互技术发展的开源音频基础模型。Kimi-Audio基于Qwen2.5-7B架构，并融合了Whisper技术，能够支持包括语音识别和音频问答在内的多种音频任务。该模型经过超过13亿小时的多样化音频数据训练，在多个基准测试中表现出色，超越了现有模型。

Kimi-Audio

Kimi-Audio的发布，无疑为音频处理领域带来了新的可能性。其强大的多功能音频处理能力，使得语音识别和音频问答等任务变得更加高效和精准。通过13亿小时的海量音频数据训练，Kimi-Audio展现出了卓越的性能，这不仅是对其技术实力的有力证明，也为未来的音频AI研究奠定了坚实的基础。更重要的是，Kimi-Audio的开源策略降低了音频AI技术的入门门槛，有助于在全球范围内推动AI技术的普及和 democratisation。这一举措无疑将加速音频AI技术的发展，并为开发者们提供更多的创新空间。

2. Step1X-Edit：开源图像编辑的新里程碑

Stepfun AI团队推出的Step1X-Edit，是一款结合了多模态大型语言模型与扩散转换器的开源图像编辑模型，展示了强大的图像生成能力。其开源特性和卓越性能引起了业界的广泛关注，特别是在GEdit-Bench基准测试中表现出色。该模型为内容创作者和开发者提供了一个强大的工具，推动了图像编辑技术的进步。

Step1X-Edit的出现，为图像编辑领域带来了新的活力。它不仅结合了多模态大型语言模型和扩散转换器，实现了高效、高质量的图像生成，还在GEdit-Bench基准测试中展现出超越现有开源模型的卓越性能，甚至逼近了闭源模型的水平。更重要的是，Step1X-Edit的开源特性为研究和开发提供了坚实的基础，促进了图像编辑技术的创新和广泛应用。对于内容创作者和开发者而言，Step1X-Edit无疑是一个强大的工具，可以帮助他们更高效地创作出令人惊艳的视觉内容。

3. 夸克AI超能搜升级上线“拍照问夸克”功能：有问必答

4月25日，阿里巴巴旗下的夸克AI超能搜上线了“拍照问夸克”功能。这项创新技术利用视觉理解和推理模型，能够快速识别和理解用户在现实生活中遇到的各种问题。用户只需拍摄照片，即可获得准确的信息和答案，涵盖了文物讲解、商品识别和健康分析等多个领域。

“拍照问夸克”功能的推出，极大地提升了用户获取信息和解决问题的效率。它基于视觉理解技术，能够快速识别图像中的内容，并提供相关的解答。用户只需拍摄照片，即可轻松获取信息，无需手动输入关键词或进行复杂的搜索。此外，用户还可以上传商品图片，直接跳转到淘宝同款链接，从而提升购物体验。更值得一提的是，该功能支持多语言提问和翻译，适用于旅行、健康、工作等多种场景，真正实现了随时随地、有问必答。

4. 苹果AI智能功能即将登陆中国？iOS 18.5正式版有望五月发布

苹果公司预计将于5月份向中国用户推送iOS 18.5更新，届时备受期待的Apple智能功能也将正式上线。此前，该功能已在其他地区推出，中国用户已等待近一个月。Apple智能是一个基于个人场景的AI系统，提供包括照片移除和智能回复在内的多样化服务。然而，只有iPhone 15 Pro系列和即将推出的iPhone 16系列将支持此功能，并且用户需要确保设备上有足够的存储空间。

Apple智能的即将到来，标志着苹果公司正式进军生成式AI时代。它不仅为用户带来了照片移除、通知总结和智能回复等实用功能，还极大地提升了用户体验。然而，需要注意的是，Apple智能功能仅支持iPhone 15 Pro及以上型号，并且需要至少7GB的可用存储空间。对于部分用户而言，存储空间的限制可能会成为使用Apple智能的一大挑战。不过，随着技术的不断发展和优化，相信未来Apple智能将会覆盖更多的设备，并为用户带来更加智能、便捷的体验。

5. 谷歌AI发布601个真实世界生成式AI应用案例，覆盖各行各业

谷歌云近期发布了一份报告，展示了来自全球领先企业的601个生成式AI应用案例，彰显了这项技术的快速发展和广泛应用。与去年仅有101个案例相比，今年的案例数量增长了六倍，涵盖了汽车、金融和医疗保健等多个行业。这些案例不仅突显了生成式AI在运营和战略中的重要性，也展示了其作为组织结构组成部分的潜力。

这601个生成式AI应用案例充分展示了该技术在各行各业的广泛应用，与去年相比，案例数量增长了六倍，这充分说明了生成式AI正在加速渗透到各行各业。通过对AI代理的清晰分类，我们可以看到AI在客户服务、内部生产力和安全等多个领域都发挥着重要作用。这些真实的应用案例表明，生成式AI正在从实验阶段走向生产阶段，成为企业运营和战略中不可或缺的一部分。

6. 微软发布全新Agent操作系统UFO²，将Windows与智能自动化深度整合

微软近期发布的UFO²版本在自动化方面取得了重大进展，尤其是在与Windows系统的深度集成方面。新版本可以直接调用Windows的原生API，极大地提高了自动化任务的效率。与OpenAI的Operator相比，UFO²在多个测试场景中表现出更高的成功率，尤其是在处理复杂任务和跨应用操作时。

微软UFO²的发布，无疑为自动化领域带来了新的突破。它通过与Windows系统的深度集成，可以直接调用原生API，从而显著提升自动化任务的效率。在多个测试场景中，UFO²的自动化任务成功率均高于OpenAI的Operator，尤其是在处理复杂任务和跨应用操作时，UFO²的优势更加明显。此外，UFO²还引入了全新的画中画模式，将自动化任务与用户操作隔离，从而提升了用户体验。这些创新性的设计，使得UFO²在自动化领域具有强大的竞争力。

7. OpenAI发布全新ChatGPT版本：更智能、更直观的GPT-4o

OpenAI近期对其GPT-4o版本的ChatGPT进行了重大更新，重点关注改进记忆保持能力和增强在科学、技术、工程和数学（STEM）领域的技能。新版本旨在更有效地引导对话朝着富有成效的结果发展，同时提高模型的智能和个性特征。OpenAI承认存在一些“平滑”问题，并承诺未来将进行改进。开发者还可以选择新的GPT-4.1系列，以获得更稳定的API体验。

OpenAI对GPT-4o版本的ChatGPT进行更新，主要目标是优化其记忆保持能力，并增强在科学、技术、工程和数学（STEM）领域的技能。这一举措旨在使ChatGPT能够更有效地引导对话，从而达成更富有成效的结果。虽然OpenAI承认新版本存在一些“平滑”问题，但他们承诺将在未来进行改进。此外，OpenAI还为开发者提供了新的GPT-4.1系列，以满足他们对更稳定API体验的需求。

8. Ema推出新型语言模型EmaFusion：在成本和准确性方面超越O3、Gemini

Ema推出了一款新型语言模型EmaFusion，声称在成本和准确性方面均超越了多个知名AI模型。EmaFusion采用了一种“级联”判断系统，可以动态平衡成本和准确性，允许用户根据任务需求对其进行微调。其准确率达到94.3%，运行成本显著降低，使其成为企业AI开发的新选择。

EmaFusion的推出，为企业AI开发带来了新的选择。它不仅在准确率方面表现出色，达到了94.3%，还在成本方面实现了显著降低，仅为市场平均水平的四分之一。EmaFusion采用了一种独特的“级联”判断系统，能够智能地分解复杂任务，并将其分配给最合适的AI模型。目前，Ema正在与毕马威（KPMG）和日立（Hitachi）等全球领导企业合作，共同推动企业AI的发展。

9. Liquid AI推出Hyena Edge，开启智能手机边缘设备的新纪元

Liquid AI近期推出了Hyena Edge，这是一种新型卷积模型，旨在为智能手机和边缘设备提供更高效的AI解决方案。该模型在计算效率和内存使用方面均超过了传统的Transformer++模型，使其特别适用于资源受限的环境。Hyena Edge在多个标准语言模型基准测试中表现出色，展示了自动化架构设计的潜力，并计划在未来开源以促进技术应用。

Hyena Edge的发布，预示着智能手机边缘设备AI技术的新纪元即将到来。作为Liquid AI推出的新型卷积模型，Hyena Edge专为智能手机等边缘设备设计，旨在提供更高效的AI解决方案。在计算效率和内存使用方面，Hyena Edge均优于传统的Transformer++模型，使其更适合资源受限的环境。此外，Hyena Edge在多个标准语言模型基准测试中表现出色，充分展示了自动化架构设计的潜力。Liquid AI计划在未来开源Hyena Edge，以促进该技术的广泛应用。

10. LemonAI推出实时音视频AI数字人模型Slice Live

LemonAI近期推出了其创新产品Slice Live，这是一款全球首创的实时音视频AI模型。用户只需上传一张照片，即可与虚拟角色进行实时视频通话。Slice Live使用先进的Transformer模型以每秒25帧的速度渲染每个像素，确保流畅逼真的视觉效果。该产品在娱乐和教育领域具有巨大的潜力，未来将扩展到AR、VR和元宇宙应用，同时优先考虑用户隐私和数据安全。

Slice Live的推出，为实时音视频互动领域带来了新的可能性。通过上传一张照片，用户即可与虚拟角色进行实时视频通话，这无疑是一种全新的互动体验。Slice Live利用先进的Transformer模型，以每秒25帧的速度渲染每个像素，从而确保了流畅逼真的视觉效果。在娱乐和教育领域，Slice Live具有巨大的应用潜力，例如提供沉浸式的互动体验和生动的学习内容。LemonAI承诺将持续探索隐私保护技术，以确保用户数据的安全。

11. 智谱与生数科技达成战略合作，聚焦大模型联合创新

4月27日，清华大学旗下的智谱和生数科技宣布达成一项重要的战略合作，旨在通过双方在大型语言模型和多模态生成模型方面的技术积累，共同推动国产大模型的技术创新和产业应用。此次合作涵盖联合研发、产品联动和解决方案集成，聚焦多个行业，以推动AI技术的应用和发展，展示了国产大模型在技术创新和产业应用方面的巨大潜力。

智谱与生数科技的战略合作，将加速国产大模型的技术创新和产业应用。双方将共同开发大型语言模型和多模态生成模型，从而推动技术创新。通过整合各自的技术优势，双方将打造更具竞争力的行业解决方案。此次合作将聚焦于政企服务、文旅等领域，共同推动AI技术的大规模应用。

12. 宝马中国宣布新款车型将集成DeepSeek，包括5系和全新X3

宝马中国将于第三季度推出配备DeepSeek技术的新款车型，标志着其智能车载系统取得了重大进展。该技术将应用于多款采用第九代操作系统的全新车型，从而增强驾驶员与车辆之间的互动体验。用户可以通过宝马智能个人助理使用自然语言进行交流，系统可以理解和响应口语化指令，从而提供便捷的驾驶体验。

宝马中国计划于第三季度推出配备DeepSeek技术的新款车型，这无疑将提升智能车载互动体验。用户可以通过宝马智能个人助理使用自然语言进行交流，系统能够理解和响应口语化指令，从而提供更加便捷的驾驶体验。DeepSeek技术的应用，旨在增强用户与车辆之间的互动，从而提供更便捷的驾驶体验。