手机NPU不断升级,为何AI体验仍无突破?边缘计算与云端AI的博弈

1

近年来,几乎所有技术创新都聚焦于生成式AI,而芯片制造商则不断吹嘘其消费设备中神经网络处理单元(NPU)的强大能力。几乎每几个月,我们就会听到新一代NPU比前一代快30%或40%的消息。然而,这些性能提升似乎并未转化为用户能明显感知到的AI体验改善。为什么手机中的NPU不断升级,但AI能力却没有相应提升?本文将深入探讨这一现象背后的技术原因、市场现状以及未来发展趋势。

什么是NPU?

当公司推出新产品时,往往陷入最高级的营销术语和模糊表述中,导致技术细节解释不清。大多数购买手机的人不清楚为什么需要专门硬件来运行AI工作负载,而所谓的优势大多是理论上的。

当今大多数旗舰级消费处理器都是片上系统(SoC),因为它们在单一硅片上集成了多种计算元素,如CPU核心、GPU和图像控制器。这适用于高通的骁龙或谷歌的Tensor等移动部件,也适用于英特尔酷睿Ultra等PC组件。

Qualcomm芯片设计NPU

NPU是芯片中较新的组件,但它并非凭空出现——其发展历程有其技术渊源。NPU擅长并行计算,这一点在SoC的其他组件中也很重要。

高通在其新产品发布中投入大量时间谈论其Hexagon NPU。敏锐的观察者可能记得,这个品牌名称曾被重复使用于公司的数字信号处理器(DSP)系列,这有其充分原因。

"我们进入AI处理领域大约是在15或20年前,最初的锚点是信号处理,"高通AI产品负责人Vinesh Sukumar表示。DSP与NPU具有相似的架构,但它们要简单得多,专注于处理音频(如语音识别)和调制解调器信号。

随着我们称为"人工智能"的技术集合的发展,工程师开始将DSP用于更多类型的并行处理,如长短期记忆(LSTM)。Sukumar解释说,当行业对卷积神经网络(CNN)——计算机视觉应用的基础技术——着迷时,DSP开始专注于矩阵函数,这也是生成式AI处理所必需的。

尽管存在这种架构上的渊源,但说NPU只是花哨的DSP并不完全准确。"如果你从一般意义上谈论DSP,是的,[NPU]是一种数字信号处理器,"联发科助理副总裁Mark Odani表示。"但它已经走了很长一段路,并且在并行性、transformer工作方式以及处理大量参数方面进行了更多优化。"

尽管NPU在新芯片中如此突出,但对于在"边缘"运行AI工作负载来说,NPU并非严格必需。CPU比NPU慢,但可以使用更少的功率处理一些轻量级工作负载。同时,GPU通常可以比NPU处理更多数据,但功耗也更高。根据高通的Sukumar的说法,有时你可能需要这样做。例如,在运行游戏的同时运行AI工作负载可能更适合GPU。

"在这里,成功的衡量标准是,在保持空间分辨率、像素动态范围的同时,不能降低帧率,并且能够在该空间内为玩家提供AI建议,"Sukumar说。"在这种用例中,在图形引擎中运行实际上是有意义的,因为这样你就不必在图形和像NPU这样的专用AI引擎之间不断切换。"

边缘计算的挑战

遗憾的是,许多设备中的NPU常常处于闲置状态(不仅在游戏期间)。本地与云端AI工具的组合倾向于后者,因为这是大型语言模型(LLM)的自然栖息地。AI模型在强大的服务器上进行训练和微调,这也是它们运行最佳的地方。

基于服务器的AI,如完整版的Gemini和ChatGPT,不像在手机NPU上运行的模型那样受资源限制。考虑谷歌最新的设备端Gemini Nano模型,其上下文窗口为32k个token,比上一版本提高了2倍以上。然而,基于云的Gemini模型的上下文窗口可达100万个token,意味着它们可以处理大得多的数据量。

npu手机

基于云和边缘的AI硬件将继续改进,但平衡可能不会转向有利于NPU的方向。"云将始终拥有比移动设备更多的计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack表示。

"如果你想要最准确的模型或最强大的模型,那都必须在云中完成,"Odani说。"但我们发现,在许多用例中,比如总结一些文本或与语音助手交谈,许多这些事情可以在30亿参数内完成。"

将AI模型压缩到手机或笔记本电脑中涉及一些权衡——例如,减少模型中包含的参数。Odani解释说,基于云的模型运行数千亿个参数,这些参数决定了模型如何处理输入token以生成输出。目前无法在消费设备上运行任何类似规模的东西,因此开发人员必须大幅缩减边缘模型的大小。Odani表示,联发科最新的第九代NPU可以处理大约30亿个参数——相差几个数量级。

手机或笔记本电脑中可用的内存量也是一个限制因素,因此移动优化的AI模型通常会被量化。这意味着模型对下一个token的估计以较低的精度运行。假设你想在你的设备上运行一个较大的开放模型,如Llama或Gemma 7b。事实上的标准是FP16,称为半精度。在该级别,一个拥有70亿参数的模型将占用13或14GB的内存。降至FP4(四分之一精度)可将模型在内存中的大小减少到几GB。

"当你压缩到大约3到4GB时,这是整合到像智能手机这样内存受限形态因素中的最佳点,"Sukumar说。"在生态系统和 Qualcomm 方面,已经投入大量资金研究各种压缩模型的方法,同时不损失质量。"

在这些限制下为移动设备创建通用AI很困难,但计算机——尤其是智能手机——是数据的丰富源泉,可以泵入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI都针对特定的、狭窄的用例,如分析屏幕截图或建议日历约会。谷歌表示,其最新的Pixel手机运行了100多个AI模型,包括生成式和传统模型。

即使是AI怀疑论者也能认识到,形势正在迅速变化。在将AI模型缩小和优化以适应手机或笔记本电脑的同时,新的云模型可能出现,使这项工作变得过时。这也是为什么第三方开发者一直缓慢地在应用中利用NPU处理的原因。他们要么必须连接到现有的设备端模型,这涉及[限制和不断变化的发展目标],要么部署自己的自定义模型。目前这两个选项都不是理想选择。

信任问题

如果云更快更简单,为什么要费心优化边缘计算并使用更多功率通过NPU运行?依赖云意味着接受对AI数据中心运营商的一定程度依赖和信任,而这种依赖和信任可能并不总是合适的。

"我们总是从用户隐私开始,"高通的Sukumar表示。他解释说,最好的推理不是一般性的——它是基于用户兴趣和生活中正在发生的事情进行个性化调整的。微调模型以提供这种体验需要个人数据,而本地存储和处理这些数据更安全。

即使公司在云服务中说对了关于隐私的话,它们也远非保证。通用聊天助手的友好氛围也鼓励人们透露大量个人信息,如果这个助手在云中运行,你的数据也在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道你的数据将会发生什么。

"人们正在使用许多这些生成式AI助手,就像治疗师一样,"Odani说。"你不知道有一天所有这些东西是否会出现在互联网上。"

并非所有人都如此担忧。Zack声称谷歌已经建立了"世界上最安全的云基础设施",使其能够在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio为例说明这种方法,指出谷歌的云是使这些体验快速和高质量的唯一途径。该公司最近宣布了其新的Private AI计算系统,声称该系统[与本地AI一样安全]。

即使这是真的,边缘计算也有其他优势——边缘AI比云服务更可靠。"设备端处理很快,"Odani说。"有时我与ChatGPT交谈,我的Wi-Fi断了或其他什么,它就会卡顿一下。"

托管基于云的AI模型的服务不只是一个网站——今天的互联网是大规模相互依赖的,内容交付网络、DNS提供商、托管和其他服务在出现故障时可能会降低或关闭你最喜欢的AI。当Cloudflare最近遭受自造成的中断时,ChatGPT用户恼怒地发现他们信赖的聊天机器人不可用。本地AI功能没有这个缺点。

云端主导

似乎每个人都认为混合方法是提供真正有用的AI功能(假设这些功能存在)的必要条件,在必要时将数据发送到更强大的云服务——谷歌、苹果和所有其他手机制造商都这样做。然而,追求无缝体验也可能掩盖你的数据正在发生什么。更常见的是,即使设备有硬件能力,手机上的AI功能也不是以安全、本地方式运行的。

例如,新的OnePlus 15。这款手机拥有高通全新的骁龙8 Elite Gen 5,其NPU比上一代快37%,无论这意味着什么。即使有了所有这些设备端AI能力,OnePlus仍然严重依赖云端来分析你的个人数据。AI Writer和AI Recorder等功能连接到公司服务器进行处理,OnePlus向我们保证这个系统是完全安全和私密的。

同样,摩托罗拉在夏季发布了一系列新的折叠式Razr手机,这些手机加载了来自多个提供商的AI功能。这些手机可以使用AI总结你的通知,但除非你阅读条款和条件,否则你可能会惊讶于有多少处理是在云中完成的。如果你购买Razr Ultra,总结发生在你的手机上。然而,RAM和NPU功能较少的较便宜型号使用云服务来处理你的通知。同样,摩托罗拉表示这个系统是安全的,但更安全的选择是为这些较便宜的重新优化模型。

即使原始设备制造商(OEM)专注于使用NPU硬件,结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该处理你手机上的所有数据并生成有用的建议和操作,但它们除了显示日历事件外很少做其他事情。事实上,谷歌已经暂时从Pixels中移除了Daily Hub,因为该功能作用甚微,而谷歌是使用Gemini Nano进行本地AI的先驱。实际上,谷歌最近几个月已经将其移动AI体验的某些部分从本地转移到基于云的处理。

那些"强力"模型似乎正在获胜,而且当用户与他们私有的计算云服务互动时,公司也能获得更多数据,这并没有什么坏处。

或许接受现实?

人们对本地AI有很大兴趣,但到目前为止,这并没有转化为口袋里的AI革命。我们迄今看到的大多数AI进步都依赖于云系统规模的不断扩大和在那里运行的通用模型。行业专家表示,幕后正在进行大量工作,以缩小AI模型使其在手机和笔记本电脑上运行,但这需要时间才能产生影响。

与此同时,本地AI处理以有限的方式存在。谷歌仍然使用Tensor NPU来处理Magic Cue等功能的敏感数据,而三星则真正充分利用了高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到依赖云可能对用户的影响,在系统设置中提供了一个切换选项,将AI处理限制为仅在设备上运行。这限制了可用的AI功能数量,其他功能也无法正常工作,但你会知道没有任何个人数据被共享。没有其他智能手机提供此选项。

Galaxy AI切换

三星提供了一个简单的切换来禁用云AI并在设备上运行所有工作负载。

三星发言人Elise Sembach表示,该公司的AI工作重点是增强体验同时保持用户控制。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私以及在无网络连接情况下的可靠性,"Sembach说。

即使你不使用它,对边缘AI的兴趣可能也是一件好事。为这个AI丰富的未来进行规划可以鼓励设备制造商投资更好的硬件——比如更多内存来运行所有那些理论上的AI模型。

"我们 definitely 建议我们的合作伙伴增加他们的RAM容量,"Sukumar说。确实,谷歌、三星等公司已经增加了内存容量,很大程度上是为了支持设备端AI。即使云正在获胜,我们也会接受额外的RAM。

结论

手机NPU的不断升级并未带来预期的AI体验革命,这一现象背后有多重技术原因。首先,云端AI在计算资源、模型规模和参数数量方面具有明显优势,即使是最新一代的NPU也难以匹敌。其次,将大型AI模型压缩到移动设备上涉及复杂的权衡,包括参数减少、精度量化等,这可能导致功能受限或质量下降。

然而,边缘AI并非没有价值。在隐私保护、可靠性和离线功能方面,本地AI具有不可替代的优势。随着技术进步,我们可能会看到更高效的模型压缩技术和更强大的边缘硬件,逐步缩小与云端AI的差距。

对于消费者而言,理解本地与云端AI的权衡至关重要。虽然目前大多数AI功能仍依赖云端,但随着硬件和软件的持续改进,我们有望看到更多真正利用NPU能力的创新应用出现。在这个过程中,用户对隐私和数据控制的关注也将推动设备制造商提供更多本地AI选项,为未来的AI体验创造更平衡的生态系统。