AI前沿:豆包3.0发布,通义千问开源,Imagen 4升级!

1

在人工智能领域,每天都有新的技术突破和产品发布。今天的AI日报将带您快速浏览最新的行业动态,聚焦于开发者和技术爱好者,助您洞察AI趋势和创新应用。

火山引擎发布豆包3.0系列模型

火山引擎在厦门站活动中推出了豆包系列的新模型及AI云原生服务升级,其中包括图像编辑模型3.0、同声传译模型2.0以及大模型1.6系列。此外,火山引擎还宣布扣子核心能力开源,并提供企业自有模型托管方案,旨在帮助开发者更轻松地构建Agent并实现AI应用的落地。

image.png

豆包·图像编辑模型3.0在自然语言指令处理能力上有了显著提升,尤其适用于影像创作和广告营销领域。用户可以通过简单的自然语言指令,实现复杂的图像编辑任务,极大地提高了工作效率和创作灵活性。

豆包·同声传译模型2.0则实现了低延迟的语音同步生成,并支持多种方言口音匹配。这意味着在国际会议、在线教育等场景中,用户可以获得更加流畅和自然的翻译体验,消除语言障碍。

豆包大模型1.6系列在代码、推理和数学能力方面进行了优化,降低了延迟和成本。这使得开发者可以更高效地构建各种AI应用,例如智能客服、自动化报告生成等。

通义千问开源Qwen3-30B-A3B-Instruct-2507模型

通义千问开源了Qwen3-30B-A3B-Instruct-2507新版本,该版本在非思考模式下表现出色,性能媲美一些顶级的闭源模型。同时,该模型还支持多语言和长文本处理,为开发者和研究人员提供了一个强大的开源平台。

image.png

Qwen3-30B-A3B-Instruct-2507在非思考模式下仅激活3B参数,但其性能却能与Gemini2.5-Flash(non-thinking)、GPT-4o等顶尖闭源模型相媲美。这表明该模型在效率和性能之间取得了很好的平衡。

该模型在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多个方面都得到了显著提升。无论是在日常办公、学术研究还是软件开发中,该模型都能为用户提供强大的支持。

Qwen3-30B-A3B-Instruct-2507还具备强大的长文本理解能力,可以处理高达256K的文本。此外,该模型还支持多种语言,并覆盖了更广泛的长尾知识,非常适合全球化应用场景。

OpenAI推出全新学习助手ChatGPT Study

OpenAI发布了全新的ChatGPT Study学习模式,旨在为学生和教育工作者提供更加个性化和互动的学习体验。该功能集成了交互式提示、支架式回应、个性化教育和知识点检查等多种功能,适用于多种学科,并对所有用户开放。

image.png

ChatGPT Study提供个性化和互动的学习体验,通过交互式提示引导学生思考,并通过支架式回应提供及时的帮助和指导。此外,该功能还可以根据学生的学习情况,提供个性化的教育内容和知识点检查,帮助学生更好地掌握知识。

ChatGPT Study对所有免费版、Plus、Pro以及Team用户开放,标志着OpenAI在教育技术上的进一步推进。未来,我们可以期待OpenAI在教育领域推出更多创新产品和服务。

我国发布HYPIR图像复原大模型

我国发布了HYPIR图像复原大模型,该模型能够在短短1.7秒内将老照片修复至8K超高清画质。这一技术的发布,展示了中国在人工智能领域的创新能力,并为文化传承、影视修复及科研医疗等多个领域带来了革命性改变。

HYPIR图像复原大模型在保真文字方面表现出色,能够高保真地还原文字内容。这意味着在修复历史文献、老照片等资料时,可以最大程度地保留原始信息,避免信息丢失或篡改。

HYPIR图像复原大模型的发布,标志着图像复原技术进入了一个全新的时代。未来,我们可以期待该技术在更多领域得到应用,为人们的生活带来更多便利。

谷歌NotebookLM推出视频概览功能

谷歌推出了NotebookLM的视频概览功能,通过将复杂信息转化为带旁白的幻灯片,为用户提供更直观的学习体验。该功能能够从用户上传的资料中提取信息,并计划未来扩展多语言支持。

谷歌NotebookLM的视频概览功能,通过提取视频中的关键信息,自动生成带旁白的幻灯片,帮助用户更高效地理解视频内容。这对于在线教育、企业培训等场景具有重要意义。

NotebookLM的视频概览功能,能够从用户上传的各种资料中提取信息,包括文本、图片、音频和视频等。未来,该功能还将支持多语言,进一步扩展其应用范围。

谷歌悄然升级Imagen 4

谷歌对其文本转图像生成模型Imagen4进行了重大升级,升级后的Imagen4Ultra在权威的Artificial Analysis图像竞技场排行榜中跃升至第三位,与OpenAI的GPT-4o和Seedream3.0并肩,成为全球顶尖的图像生成模型之一。

Google has quietly upgraded Imagen 4! Imagen 4 Ult.jpg

Imagen4Ultra在图像细节、真实感和风格一致性方面表现出色,其性能得到了显著提升。这意味着用户可以通过该模型生成更加逼真、精美的图像。

Imagen4标准版和Ultra版的价格远低于GPT-4o,具有更高的性价比。此外,Imagen4Ultra生成一张图像的平均时间仅为9.5秒,效率领先于多数竞品。

昆仑万维开源多模态统一预训练模型Skywork UniPic

昆仑万维推出了Skywork UniPic多模态统一预训练模型,该模型融合了图像理解、文本到图像生成和图像编辑能力,基于大规模数据端到端预训练,展现了优异的通用性和可迁移性。

image.png

Skywork UniPic采用MAR编码器与SigLIP2主干网络,实现了跨任务的深度协同。这意味着该模型可以在不同任务之间共享知识,从而提高整体性能。

Skywork UniPic支持图像理解、生成及风格转绘等复杂操作。用户可以通过该模型实现各种创意,例如将文本描述转化为图像、编辑现有图像的风格等。

Skywork UniPic的参数规模为1.5B,接近大型统一模型的效能。此外,该模型还可以在消费级显卡上流畅运行,显著降低了技术应用门槛。

理想i8发布,首搭智能司机大模型

理想汽车推出了全新六座纯电SUV——理想i8,提供三个版本,售价分别为32.18万元、34.98万元和36.98万元。该车在技术配置上诚意满满,全系标配双电机四驱系统、自研5C电池以及激光雷达,并全球首搭VLA司机大模型,提升了车辆的安全性和智能化水平。

理想i8配备双电机四驱系统,最大功率高达400kW,扭矩达660Nm。这意味着该车具有强大的动力性能,可以轻松应对各种路况。

理想i8自研5C电池提供两种容量,续航里程分别为670公里和720公里。这意味着该车具有较长的续航里程,可以满足用户的日常出行需求。

理想i8全球首搭VLA司机大模型,支持自然语言交互,提升智能操作体验。这意味着用户可以通过语音指令控制车辆,实现更加便捷的驾驶体验。

谷歌在英国推出AI搜索模式

谷歌在英国推出全新的AI搜索模式,能够帮助用户提出更复杂的问题并获得精准的AI驱动回复。该模式基于Gemini2.5模型,利用查询扩展技术深入挖掘网络内容,并支持多种交互方式,如文字、语音或图像提问。

image.png

谷歌AI搜索模式基于最新的Gemini2.5模型,可以处理复杂的多部分问题。这意味着用户可以通过该模式提出更加具体、详细的问题,并获得更加精准的答案。

该模式采用查询扩展技术,将用户问题分解为多个子主题,并深入挖掘网络内容。这意味着该模式可以更全面地理解用户意图,并提供更相关的搜索结果。

该模式支持语音和图像提问,提升了交互体验和便利性。这意味着用户可以通过语音或图像方式提出问题,无需手动输入文字。

OWL团队开源一款多智能体Manus类工具Eigent

Eigent是CAMEL-AI团队开发的多智能体协作工具,基于OWL框架构建,旨在提升复杂任务处理效率。其核心在于任务拆解与并行执行,支持多种大语言模型和多模态数据处理,展现了开源AI在性能与可访问性上的优势。

image.png

Eigent通过多智能体协作实现高效任务处理,显著提升复杂任务的执行效率。这意味着用户可以通过该工具更快速地完成各种复杂任务。

Eigent支持多种大语言模型和多模态数据处理,生成内容更加专业且全面。这意味着该工具可以生成更加高质量的内容,满足用户的各种需求。

Eigent的开源特性允许开发者自由检查代码、贡献功能或定制化使用,推动社区发展。这意味着用户可以根据自己的需求定制该工具,并与其他开发者分享自己的成果。

2025年用户增速最快亿级APP榜单发布

文章分析了2025年6月活跃用户规模超过1亿且同比增长率最高的前20款应用程序,其中DeepSeek在AIGC领域表现突出,豆包和红果免费短剧也展现出强劲的增长势头。

image.png

DeepSeek以1.63亿月活跃用户位居AIGC行业第一。这表明DeepSeek在AIGC领域具有强大的竞争力。

豆包实现410.69%的同比增长,月活跃用户达1.41亿。这表明豆包具有强劲的增长势头。

红果免费短剧吸引2.12亿用户,迎合了碎片化娱乐需求。这表明红果免费短剧在满足用户娱乐需求方面具有优势。

总的来说,人工智能领域在不断发展,新的技术和产品层出不穷。我们期待未来人工智能能够为人们的生活带来更多便利和惊喜。