AI日报:音频、视频、客服齐头并进,2025人工智能新突破

1

在科技日新月异的今天,人工智能(AI)正以惊人的速度渗透到我们生活的方方面面。2025年7月9日,AI领域再次迎来了一系列重大突破,从音频生成到视频创作,再到企业级应用,AI技术正以前所未有的方式重塑着各行各业。本文将深入剖析这些最新进展,带您一览AI世界的最新动态。

阿里通义ThinkSound:开启链式推理音频生成新纪元

阿里语音AI团队的最新力作——ThinkSound,是一款支持链式推理的音频生成模型。这一创新模型通过引入思维链技术,打破了传统视频转音频技术的瓶颈,实现了高保真、强同步的空间音频生成。这意味着AI不再仅仅是“看图配音”,而是能够真正“理解画面”,从而生成更加自然、逼真的音频内容。

image.png

ThinkSound的独特之处在于其首次将多模态大语言模型与统一音频生成架构相结合。这种结合使得模型能够更精准地合成音频,从而在音频生成领域实现质的飞跃。为了训练这一强大的模型,阿里团队构建了一个包含2531.8小时高质量样本的AudioCoT数据集,这极大地提升了模型处理复杂指令的能力。目前,ThinkSound的代码和预训练权重已经开源,这无疑将加速AI音频生成技术的发展,并为开发者们提供更广阔的创新空间。

谷歌Veo3:静态图片“秒变”生动视频

谷歌的AI视频生成工具Veo3迎来了重大升级,现在用户只需上传一张静态照片,即可生成高质量的音频和视频内容。这一突破性的进展,充分展示了AI在创作领域的巨大潜力。Veo3的核心功能之一是能够保持角色在多个镜头下的一致性,这对于视频制作来说至关重要。此外,Veo3还提供了丰富的运镜功能,如推镜头(Dolly in),让用户能够轻松创作出更具专业感的视频作品。当然,不同质量的生成模型需要消耗相应的credits,这也提醒我们在追求高质量的同时,也要合理利用资源。

image.png

Veo3的升级,无疑为内容创作者们带来了福音。无论是制作短视频、广告片,还是进行艺术创作,Veo3都能够提供强大的支持,让创作过程更加高效、便捷。

Hugging Face SmolLM3:小参数,大能量

Hugging Face发布了SmolLM3,这是一款仅有30亿参数的小型开源模型,但其性能却超越了Llama-3.2-3B和Qwen2.5-3B等同类模型。SmolLM3不仅支持多种语言处理,还具备双模式推理功能,能够灵活应对不同的需求。更重要的是,Hugging Face公开了SmolLM3的架构细节,这为研究者们提供了深入了解和优化模型的机会。

image.png

SmolLM3的成功,再次证明了“小模型也能有大作为”。在资源有限的情况下,如何设计出高效、强大的AI模型,一直是研究者们关注的焦点。SmolLM3的出现,为我们提供了一个新的思路,也为AI技术的普及和应用带来了新的希望。

阿里WebSailor:智能Agent的又一里程碑

阿里通义开源了网络智能体WebSailor,这款AI Agent在BrowseComp评测集中表现出色,超越了DeepSeek R1和Grok-3等闭源模型,展现了强大的推理和检索能力。WebSailor的出现,标志着AI Agent技术又向前迈进了一大步。银河证券指出,AI Agent经济已全面开启,并建议关注布局领先的SAAS企业。焦点科技和中科金财等上市公司已在AI Agent技术应用上有所布局,相信在不久的将来,我们将看到更多AI Agent在各行各业发挥重要作用。

Moonvalley Marey Realism v1.5:AI视频的“真”时代

Moonvalley推出的Marey Realism v1.5 AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。其原生1080P视频生成能力、基于授权内容的训练数据以及精准解读复杂提示的能力,为影视制作和广告创意提供了更安全、高效的工具。Marey Realism v1.5的出现,让AI视频生成更加“真实”,也更加可靠。

image.png

Vidu Q1:让AI视频更懂你

Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像,生成视觉一致性极高的1080p视频。该技术通过语义融合确保多图像元素在视频中保持一致,解决了传统AI视频生成中的场景断裂或角色失真问题,为创作者提供了强大的工具。Vidu Q1的创新之处在于其能够更好地理解用户的意图,从而生成更符合用户期望的视频内容。

苹果AI客服助手:更智能、更高效

苹果公司正在开发一款基于人工智能的‘支持助手’,旨在为用户提供更智能和高效的客户服务体验。该功能已在 Apple Support 应用代码中被发现,未来将允许用户在联系客服前获得 AI 生成的解决方案,提高服务效率。苹果的AI客服助手,将有望改变传统的客户服务模式,让用户体验更加便捷、顺畅。

飞书AI新品:企业级“豆包”的诞生

飞书发布了多款AI产品,包括知识问答、AI会议、Aily、飞书妙搭等,旨在加速AI在企业级应用中的落地。同时,飞书还推出了业界首个AI应用成熟度模型,帮助企业评估AI产品的实际效果。飞书的AI新品,将有望帮助企业实现智能化运营,提升工作效率。

教育领域的AI变革:微软、OpenAI与Anthropic的联合行动

美国教师联合会(AFT)联合微软、OpenAI和Anthropic成立全国人工智能教育学院,旨在为教师提供免费的AI工具培训,帮助他们更好地利用人工智能技术。该项目获得2300万美元资金支持,推动教育领域的技术变革。这一举措,将有助于提升教师的AI素养,让AI更好地服务于教育事业。

昆仑万维Skywork-R1V3.0:多模态推理的新高度

昆仑万维发布Skywork-R1V3.0,展现出卓越的多模态推理能力,训练样本少但表现出色,达到了人类专家水平。Skywork-R1V3.0在跨模态推理中取得了76.0分的好成绩,超越了多款闭源模型。这一成就,再次证明了中国AI技术的实力。

image.png

总而言之,2025年7月9日,AI领域可谓是精彩纷呈。从音频生成到视频创作,再到企业级应用和教育领域的变革,AI技术正以前所未有的速度发展。我们有理由相信,在不久的将来,AI将会在更多领域发挥重要作用,为我们的生活带来更多便利和惊喜。