AI前沿:阿里发布长文本模型,GPT-4o语音唱歌,秘塔搜索提速!

8

在人工智能领域,每一天都充满了新的突破与进展。今天,我们将深入探讨几项引人注目的AI创新,这些创新不仅预示着技术发展的新方向,也为各行各业带来了前所未有的机遇。

中国信通院发布软件开发智能体标准

中国信息通信研究院(简称“中国信通院”)联合多家企业,正式发布了软件开发智能体标准。这一标准的发布,标志着AI智能体商业化进程进入了一个全新的阶段。AI智能体,作为一种能够自主完成特定任务的智能系统,正在软件开发领域发挥着越来越重要的作用。标准的制定,为AI智能体的研发、应用和评估提供了统一的参考,有助于推动行业的健康发展。

据预测,全球AIAgent市场将在2024年达到51亿美元的规模,并有望在2030年增长至471亿美元,年复合增长率高达44.8%。这一惊人的增长速度,充分显示了市场对AI智能体的巨大需求和潜力。目前,包括税友股份和赛意信息在内的多家企业,已经积极布局AI智能体,通过提升服务能力,加速数字化转型。

阿里发布QwenLong-L1-32B:强化学习训练的长文本推理模型

阿里巴巴发布了QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型。与其他模型不同,QwenLong-L1-32B采用了强化学习进行训练,使其在处理长文本推理任务时表现出色。该模型在多个长文本情境文档问答基准测试中表现领先,能够处理复杂、长篇的文本任务。

image.png

QwenLong-L1-32B的独特之处在于其采用了GRPO和DAPO算法,这两种强化学习算法能够显著提升推理的准确性和效率。此外,阿里巴巴还发布了完整的解决方案体系,包括高性能模型、优化数据集、强化学习方法以及评估体系,旨在推动长文本AI应用的产业化。

GPT-4o 语音模式升级:新增唱歌功能

OpenAI的GPT-4o高级语音模式迎来了一次重大更新,其中最引人注目的就是新增的唱歌功能。这意味着,AI不仅能够理解和回应人类的语音指令,还能够根据指令生成旋律、歌词,甚至模仿特定风格进行演唱。尽管目前的唱歌表现还有待优化,但这一功能的加入,无疑为AI交互开辟了新的可能性。

GPT-4o的高级语音模式还实现了端到端处理,响应延迟仅为320毫秒,使得人与AI之间的交流更加自然流畅。此外,GPT-4o还新增了笑声、哭声等情感表达功能,进一步拓展了AI在娱乐和教育领域的应用场景。

秘塔AI搜索推出“极速”模型:响应速度大幅提升

秘塔AI搜索推出了全新“极速”模型,该模型通过采用GPU上的kernel fusion技术和CPU上的动态编译优化策略,实现了搜索效率的大幅提升。据称,在单张H800 GPU上,该模型能够实现最高400tokens/秒的响应速度,使得大部分问题都可以在2秒内得到解答。

image.png

除了速度上的提升,秘塔AI搜索的“极速”模型在准确率和逻辑性方面也表现出色。为了让用户亲身体验其快速响应能力,秘塔AI搜索还提供了测速站点(kuai.metaso.cn)。

谷歌推出LMEval:统一评估大语言与多模态模型的新工具

谷歌发布了LMEval,这是一个开源框架,旨在简化和标准化大型语言及多模态模型的评估过程。LMEval支持跨平台模型对比,提供增量评估和可视化分析功能,有助于研究人员和开发者更全面地了解模型的性能。

image.png

LMEval框架支持文本、图像和代码评估,兼容新增输入格式,并提供LMEvalboard工具,用于直观展示模型性能,便于深度分析。

谷歌Chrome浏览器新增Gemini AI助手:实时屏幕感知能力引关注

谷歌在Chrome浏览器中引入了Gemini AI助手,这项技术能够实时感知屏幕内容,并提供个性化帮助,从而提升用户体验。Gemini AI助手目前仅向AI Pro和AI Ultra订阅用户开放,且处于测试版。

image.png

谷歌计划未来将Gemini AI助手扩展至更多场景与设备,以提升整体用户体验。这一举措,无疑将进一步巩固谷歌在AI领域的领先地位。

阿联酋全民免费使用ChatGPT Plus:AI国际化战略重大里程碑

阿联酋将成为全球首个向全体居民免费提供ChatGPT Plus高级版服务的国家。此外,阿联酋还在建设星际之门阿联酋AI数据中心,计划构建1千兆瓦的人工智能计算集群,以提升地区AI地位。OpenAI与阿联酋的合作,将开发符合本土需求的AI解决方案,促进全球AI技术的普及与应用。

苏州成立60亿元人工智能母基金:助力产业转型升级

江苏苏州成立了一支60亿元的人工智能产业专项母基金,该基金将聚焦算力基础设施、数据、人才等领域,推动“人工智能+制造业”等行业融合应用,加速产业转型升级。预计2024年,苏州园区将聚集超过1800家AI企业,助力苏州成为国家级AI发展试验区。

Kyutai Unmute 发布:10秒定制语音,AI对话进入超低延迟时代

法国AI实验室Kyutai推出的Unmute系统,为文本大语言模型赋予了强大的语音交互能力,包括智能对话、超低延迟和个性化定制功能。Unmute通过模块化设计,让文本模型能够快速获得语音输入和输出功能,无需重新训练模型。

image.png

Unmute具备智能判断与接话、随时打断及文本流式合成等功能,使得对话体验更接近人类。此外,Unmute还支持个性化定制功能,只需10秒语音样本,即可生成专属AI声音。

UAV-Flow项目突破无人机控制:语言指令实现精准飞行

UAV-Flow项目通过自然语言处理技术,让用户仅凭语音指令即可实现对无人机的精确控制,大幅降低了操作门槛。UAV-Flow集成了语音识别、语义理解及动态路径规划等功能,能够适应多种复杂环境。

image.png

通过UAV-Flow,无人机可以通过语音指令如“向前飞50米”或“围绕目标盘旋”实现精准控制。该项目在消费娱乐、工业巡检及紧急救援等领域具有广泛的应用前景。

Claude即将大升级:百万字符上下文+记忆功能

Anthropic计划对Claude进行多项重要功能升级,包括将上下文窗口扩展至百万字符,新增记忆功能,增强输出能力,扩展多文件格式支持,以及改进视觉功能。这些改进将使Claude在长文本处理、跨模态任务和企业级应用中更具竞争力。

image.png

百度心响 iOS 版正式上线:智能体应用实现全面覆盖

百度心响iOS版的上线,标志着智能体应用普及进入了一个新阶段。用户可以在APP Store免费下载心响iOS版,享受便捷的智能体服务。心响能够自动生成旅游攻略、深度研究报告,并提供与线下医生相似的健康咨询服务。

image.png

夸克发布行业首个“高考深度搜索”:一句话生成志愿填报方案

针对高考志愿填报信息繁杂的问题,夸克推出了“高考深度搜索”功能,旨在帮助考生和家长更高效地获取权威、准确的信息。夸克高考深度搜索功能,支持个性化志愿填报方案生成。其数据来源于自建高考知识库,包括历年志愿数据及就业考研信息。

image.png

Chrome v137开发者工具重磅升级:Gemini 智能标注让性能分析秒变神器

Chrome v137引入Gemini AI智能助手,通过智能标注、CSS修改、性能洞察和截图功能,大幅提升了开发效率。Gemini智能标注功能简化了性能分析流程,能够快速理解复杂性能数据。

美团 AI 业务进展:基础大模型能力接近 GPT-4o 水平

美团在AI领域取得了显著进展,包括接近GPT-4o水平的大模型研发、业务决策助手的推出、以及NoCode编程工具的开发等。据称,美团内部工程师的52%代码由AI生成。

Direct3D-S2横空出世:千兆级3D生成提速近10倍,AI建模进入新纪元

Direct3D-S2通过创新的空间稀疏注意力机制,显著提升了高分辨率3D图像生成的质量与效率,为千兆级3D生成提供了更具可扩展性的解决方案。

image.png

空间稀疏注意力(SSA)机制大幅提升了生成效率,前向传播速度提升3.9倍,反向传播速度提升9.6倍。该开源计划预计在5月底前公布,旨在推动3D生成技术在全球范围内的普及与应用。

OpenAI 计划2026年推出首款 AI 硬件,让 ChatGPT 融入生活每个角落

OpenAI正在研发一款由ChatGPT驱动的全新AI硬件,预计2026年发布。OpenAI的目标是打造随时陪伴的AI,让用户享受无缝智能体验。这款产品将整合到日常生活的方方面面,提供无缝的智能体验。

总的来说,AI技术的快速发展正在深刻地改变着我们的世界。从软件开发到语音交互,从搜索到3D建模,AI的身影无处不在。我们有理由相信,在不久的将来,AI将会在更多的领域发挥重要作用,为人类带来更多的便利和价值。