AI日报:MiniMax-M1开源,腾讯LeVo模型音色克隆,AI技术多领域爆发

1

在人工智能领域,技术的快速迭代与创新层出不穷。2025年6月17日,AI领域再次迎来多个重要进展,从开源模型的突破到AI在音乐、教育等领域的应用,都展示了AI技术的巨大潜力。

开源模型的新标杆:Kimi-Dev-72B

月之暗面发布了全新的开源模型Kimi-Dev-72B,该模型专注于软件工程任务,并在SWE-bench Verified测试中取得了令人瞩目的成绩。以72亿参数量超越了DeepSeek-R1,成为开源模型的新标杆。Kimi-Dev-72B在SWE-bench Verified测试中获得了60.4%的高分,这一成绩不仅证明了其在编程领域的强大能力,也为开源社区带来了新的可能性。该模型结合了BugFixer和TestWriter双重角色,通过自我博弈机制提升性能,确保代码质量和正确性。未来,Kimi-Dev-72B计划与流行的开发工具进行深度集成,持续优化并推出更强大的版本。

image.png

超长上下文推理:MiniMax-M1的开源

MiniMax-M1以其超长上下文推理能力、高效训练成本及开源特性引发了广泛关注。其上下文窗口高达1M输入和80k输出,远超GPT-4o,使其在复杂文档分析和多轮对话中表现出色。MiniMax-M1的训练成本仅为53万美元,通过MoE架构和CISPO算法实现了高效推理与低成本。该模型已在Hugging Face平台开源,支持40k和80k思维预算,性能媲美顶级商业模型。MiniMax-M1的开源,为研究者和开发者提供了强大的工具,有望推动AI技术的进一步发展。

图片

AI音乐创作的突破:腾讯LeVo

腾讯AI团队推出的LeVo模型,在AI音乐创作领域取得了显著进展。LeVo模型以其强大的音色克隆、分轨生成和高保真音乐表现引发热议,与Suno4.5相比,它在多项关键指标上表现出色。LeVo模型支持零样本音色克隆,仅需3秒音频即可精准复制音色,大幅降低了音乐创作的门槛。此外,LeVo模型还提供分轨生成模式,支持人声与伴奏分离,为专业音乐制作提供更高灵活性。腾讯以开源形式发布LeVo模型,旨在促进全球音乐创作社区的发展,提升中国AI技术在国际上的影响力。

image.png

阿里巴巴Qwen3升级版:适配苹果MLX架构

阿里巴巴发布的Qwen3升级版,与苹果MLX架构兼容,标志着苹果智能在中国市场的发展迈出了重要一步。新版Qwen3支持119种语言,具备更强的性能和混合推理能力,有助于苹果智能在中国落地。尽管苹果智能尚未在中国上线,但预计将在iOS18.6正式公测版中提供预览。阿里巴巴与苹果的合作,将为中国用户带来更智能、更便捷的AI体验。

image.png

豆包的AI播客功能

豆包推出了全新的“AI播客”功能,用户只需上传PDF或链接,即可生成自然双人对话播客,这种创新的信息接收方式,为用户提供了更高效、更便捷的学习和工作体验。AI播客适用于多种场景,用户可以利用碎片时间高效获取信息。豆包的AI播客功能,以其逼真的语音效果和沉浸式听觉体验,受到了用户的广泛欢迎。

image.png

夸克App的个性化AI辅导:夸克老师

夸克App推出了全新的学习产品“夸克老师”,这是一款功能强大的AI家教,能够讲题、批作业、出题、找试卷,尤其擅长数学和物理难题的解答。夸克老师具备因材施教的能力,通过分析学生的学习数据,提供个性化的辅导。夸克老师拥有海量题库资源,包括专业题库和名校真题,满足学生多样化的学习需求。夸克老师的推出,为学生提供了更优质、更高效的学习体验。

image.png

松下OmniFlow:多模态大模型的突破

松下推出了全新的OmniFlow多模态大模型,该模型支持文本、图像与音频的自由切换,为用户带来了全新的多模态体验。OmniFlow采用模块化设计,各组件独立预训练,提高了资源利用效率并优化了训练效果。OmniFlow引入了多模态引导机制,用户可以精准控制生成过程,满足多样化的需求。OmniFlow的推出,为多模态应用带来了新的可能性。

image.png

TikTok Symphony AI工具:简化视频创作流程

TikTok推出了三款AI视频创作工具,包括“图像转视频”、“文字转视频”和“Showcase Products”,旨在简化品牌广告内容制作流程。这些工具集成到Symphony Creative Studio中,并与Adobe Express及WPP Open合作,提升广告商的效率。图像转视频功能让静态图片轻松变为动态视频,文字转视频功能无需图片或模板,仅凭文字即可制作视频,Showcase Products工具融合产品图片与数字化身,打造沉浸式广告体验。TikTok Symphony AI工具的推出,为广告商提供了更便捷、更高效的视频创作方式。

image.png

极氪与火山引擎:豆包大模型赋能智能座舱

极氪汽车与火山引擎合作,将豆包大模型接入ZEEKR AI OS的新版中,提升智能座舱服务能力,优化个性化体验。豆包大模型接入极氪智能座舱后,能够实现精准推荐与个性化服务。升级后的极氪智能语音助手Eva,支持从传统语音交互到大语言模型服务的无缝切换。极氪第50万台车型009光辉下线,刷新了豪华纯电车型最快纪录。极氪与火山引擎的合作,为智能座舱带来了新的发展机遇。

Meta Llama3.1:文本记忆的新突破

斯坦福大学等机构的研究表明,Meta的Llama3.1 70B模型在文本记忆方面表现出色,尤其在热门书籍如《哈利波特》中的表现令人瞩目。Llama3.1 70B模型在《哈利波特》中能够记住42%的内容,远超Llama1 65B的4.4%。这项研究采用了Books3数据库,通过标记段落测试模型的记忆能力。研究结果表明,热门书籍的记忆效果更佳,显示AI在理解和处理文本上的进步。Meta Llama3.1的突破,为AI在文本记忆领域的发展带来了新的希望。

Grok任务功能:AI效率超越ChatGPT

xAI旗下的AI助手Grok推出了全新的Tasks定时任务功能,通过自动化执行查询和外部通知,为用户提供高效便捷的信息获取体验。Grok支持多种任务频率,从即时到长期跟踪,满足用户多样化的需求。Grok还提供外部通知功能,如邮件推送,结果主动推送给用户,提升使用便利性。SuperGrok用户享有更高配额和优先体验尖端功能,如DeepSearch和Big Brain Mode。Grok任务功能的推出,为用户提供了更智能、更高效的AI助手。

Gemini2.5Pro:Deep Think功能的更新

Gemini2.5Pro即将更新Deep Think功能,该功能通过多线程推理显著提升复杂任务中的性能,特别是在数学、编程和多模态任务中表现出色。用户可以通过网页UI直观切换至Deep Think模式,功能将逐步向更多用户开放。在正式发布前,Google通过API收集反馈并进行安全评估,确保功能的稳定性和数据安全性。Gemini2.5Pro的Deep Think功能的更新,将为用户带来更强大的AI能力。

image.png

谷歌地图:AI功能带来智能体验

谷歌地图通过引入生成式人工智能技术,对导航、探索及个性化推荐等功能进行了全面升级,为用户提供更加智能、高效的体验。用户可以使用生成式AI搜索功能,通过自然语言实现精准地点查询。智能评论分析功能可以自动总结用户评论并解答关于地点的具体问题。谷歌地图还推出了节油路线优化功能,结合多因素分析推荐更环保的行驶路线。谷歌地图的升级,为用户提供了更智能、更便捷的出行体验。

image.png

总的来说,AI技术的快速发展正在深刻地改变着我们的生活和工作方式。从开源模型的突破到AI在各个领域的应用,都展示了AI技术的巨大潜力。未来,随着AI技术的不断进步,我们有理由期待AI将为我们带来更多的惊喜和便利。