手机NPU性能提升为何未能推动AI革命?

0

过去几年几乎所有的技术创新都聚焦于生成式AI,许多所谓的革命性系统运行在数据中心的昂贵服务器上。与此同时,芯片制造商却不断吹嘘其消费设备中神经网络处理单元(NPU)的强大性能。每隔几个月,就会推出新一代NPU,声称比前代快30%或40%,但很少有人真正解释这能带来什么实际价值。

专家们设想了一个安全、个人化的本地AI工具未来,但这一愿景与当前的AI热潮现实是否匹配?边缘AI听起来很美好,但几乎所有重要的AI工具都运行在云端。那么,你手机里的那颗芯片究竟在做什么?

什么是NPU?

公司发布新产品时,常常陷入夸张的营销言辞,无法清晰解释技术细节。大多数购买手机的人并不清楚为什么需要运行AI工作负载的硬件,而所谓的益处大多是理论上的。

如今许多旗舰消费处理器都是片上系统(SoC),因为它们在单一硅片上集成了多种计算元素,如CPU核心、GPU和图像控制器。高通的骁龙、谷歌的Tensor以及英特尔酷睿Ultra等移动组件都是如此。

NPU是芯片中的新成员,但并非突然出现——它有着明确的技术演进路线。NPU擅长并行计算,这一点与其他SoC组件相似。

Qualcomm chip design NPU

高通在其新产品发布中投入大量时间介绍其Hexagon NPU。敏锐的观察者可能会记得,这个品牌名称被重用于其数字信号处理器(DSP)系列,这有其合理原因。

"我们大约在15或20年前开始涉足AI处理,最初的锚点是信号处理,"高通AI产品负责人Vinesh Sukumar表示。DSP与NPU架构相似,但更简单,专注于处理音频(如语音识别)和调制解调器信号。

随着我们称为"人工智能"的技术集合的发展,工程师们开始将DSP用于更多类型的并行处理,如长短期记忆(LSTM)。Sukumar解释说,当行业开始热衷于卷积神经网络(CNN)——计算机视觉应用的基础技术时,DSP开始专注于矩阵函数,这对生成式AI处理也至关重要。

尽管存在架构上的传承,但简单地说NPU只是花哨的DSP并不准确。"如果你从一般意义上谈论DSP,是的,[NPU]是一种数字信号处理器,"联发科助理副总裁Mark Odani表示。"但它已经走了很长的路,并且在并行性、transformer工作原理以及处理大量参数方面进行了更多优化。"

尽管NPU在新芯片中如此突出,但对于在"边缘"运行AI工作负载来说,NPU并非绝对必要。CPU比NPU慢,但可以使用更少的功率处理一些轻量级工作负载。同时,GPU通常可以比NPU处理更多数据,但功耗也更高。根据高通的Sukumar的说法,有时你可能需要这样做。例如,在游戏运行时执行AI工作负载可能更适合使用GPU。

"在这里,成功的衡量标准是在保持空间分辨率、像素动态范围的同时不降低帧率,并且能够在该空间内为玩家提供AI建议,"Sukumar说。"在这种用例中,实际上在图形引擎中运行是有意义的,因为这样你就不必在图形引擎和像NPU这样的专用AI引擎之间不断切换。"

边缘计算的困境

不幸的是,许多设备中的NPU常常处于空闲状态(游戏期间除外)。本地与云端AI工具的组合更倾向于后者,因为那是大型语言模型(LLM)的自然栖息地。AI模型在强大的服务器上训练和微调,并且在那里运行效果最佳。

基于服务器的AI,如完整版的Gemini和ChatGPT,不像在手机NPU上运行的模型那样受资源限制。考虑谷歌最新的设备端Gemini Nano模型,其上下文窗口为32k个token,比上一版本提高了2倍以上。然而,基于云的Gemini模型的上下文窗口高达100万个token,意味着它们可以处理更大容量的数据。

云端和边缘AI硬件都将持续改进,但平衡可能不会向NPU倾斜。"云总是比移动设备拥有更多计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack表示。

"如果你想要最准确的模型或最强大的模型,所有这些都必须在云端完成,"Odani说。"但我们发现,在许多用例中,比如总结一些文本或与语音助手交谈,很多这些事情可以在30亿参数内完成。"

将AI模型压缩到手机或笔记本电脑上需要一些妥协——例如,减少模型中包含的参数。Odani解释说,基于云的模型运行数千亿个参数,这些权重决定了模型如何处理输入token以生成输出。目前无法在消费设备上运行任何类似规模的模型,因此开发人员必须大幅缩减边缘模型的大小。Odani表示,联发科最新的第九代NPU可以处理约30亿个参数——相差几个数量级。

手机或笔记本电脑中可用的内存量也是一个限制因素,因此移动优化的AI模型通常会被量化。这意味着模型对下一个token的估计以较低的精度运行。假设你想在设备上运行其中一个较大的开源模型,如Llama或Gemma 7b。行业标准是FP16,即半精度。在该级别,拥有70亿参数的模型将占用13或14GB内存。降至FP4(四分之一精度)可将模型在内存中的大小减少到几GB。

"当你压缩到大约3到4GB时,这对于像智能手机这样内存受限的形态集成来说是一个甜点,"Sukumar说。"在生态系统和高通方面已经进行了大量投资,研究各种压缩模型的方法而不损失质量。"

在移动设备上创建具有这些限制的通用AI很困难,但计算机——尤其是智能手机——是丰富的数据源泉,可以将这些数据输入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI都针对特定的、狭窄的用例,如分析屏幕截图或建议日历约会。谷歌表示,其最新的Pixel手机运行了100多个AI模型,包括生成式和传统模型。

即使是AI怀疑论者也能认识到格局正在迅速变化。在将AI模型缩小和优化以适应手机或笔记本电脑的过程中,新的云模型可能出现,使这项工作变得过时。这也是为什么第三方开发者一直未能充分利用NPU处理功能的原因。他们要么必须接入现有的设备端模型,这涉及限制和不断变化的发展目标,要么部署自己的定制模型。目前这两种都不是理想选择。

信任问题

如果云端更快更简单,为什么要费心优化边缘计算并使用NPU消耗更多功率?依赖云端意味着接受对AI数据中心运营商的依赖和信任,而这种依赖和信任并不总是适当的。

"我们始终以用户隐私为出发点,"高通的Sukumar表示。他解释说,最好的推理不是通用的——它是基于用户兴趣和他们生活中发生的事情进行个性化定制的。微调模型以提供这种体验需要个人数据,而在本地存储和处理这些数据更安全。

即使公司在云服务中关于隐私的言论正确,也远非保证。通用聊天助手的友好氛围也鼓励人们透露大量个人信息,如果这个助手在云端运行,你的数据也会在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录被交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得难以了解你的数据将发生什么。

"人们正在使用许多生成式AI助手,就像使用治疗师一样,"Odani说。"你不知道有一天所有这些东西是否会出现在互联网上。"

并非所有人都如此担忧。Zack声称谷歌已经建立了"世界上最安全的云基础设施",使其能够在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio为例说明这种方法,指出谷歌的云是使这些体验快速和高质量的唯一途径。该公司最近宣布了新的Private AI Compute系统,声称其与本地AI一样安全

即使这是真的,边缘计算也有其他优势——边缘AI比云服务更可靠。"设备端处理速度快,"Odani说。"有时我在与ChatGPT交谈,我的Wi-Fi断开了或其他问题,它就会卡顿一下。"

托管基于云的AI模型的服务不只是一个网站——今天的互联网是高度相互依赖的,内容分发网络、DNS提供商、托管和其他服务在出现故障时可能会降级或关闭你最喜欢的AI。当Cloudflare最近遭受自引发的中断时,ChatGPT用户发现他们可靠的聊天机器人不可用,感到恼火。本地AI功能没有这个缺点。

云端主导

似乎每个人都同意,混合方法对于提供真正有用的AI功能(假设这些功能存在)是必要的——在必要时将数据发送到更强大的云服务——谷歌、苹果和所有其他手机制造商都是这么做的。但对无缝体验的追求也可能掩盖了你的数据正在发生什么。通常情况下,即使设备有硬件支持,手机上的AI功能也不是以安全、本地的方式运行的。

以新的OnePlus 15为例。这款手机配备了高通全新的骁龙8 Elite Gen 5,其NPU比上一代快37%,无论这意味着什么。尽管有这些设备端AI能力,OnePlus严重依赖云端来分析你的个人数据。AI Writer和AI Recorder等功能连接到公司服务器进行处理,OnePlus向我们保证这个系统绝对安全私密。

同样,摩托罗拉在夏季发布了一系列新的Razr折叠屏手机,加载了来自多个提供商的AI功能。这些手机可以使用AI总结你的通知,但除非你阅读条款和条件,否则你可能惊讶于有多少处理在云端完成。如果你购买Razr Ultra,总结在你的手机上进行。然而,RAM和NPU功能较少的较便宜型号使用云服务来处理你的通知。同样,摩托罗拉表示这个系统是安全的,但更安全的选择是为这些较便宜的手机重新优化模型。

即使原始设备制造商(OEM)专注于使用NPU硬件,结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该能够处理你手机上的所有数据并生成有用的建议和操作,但它们除了显示日历事件外几乎不做任何事。事实上,谷歌已经暂时从Pixel手机中移除了Daily Hub,因为该功能功能太少,而谷歌是本地AI的先驱,拥有Gemini Nano。谷歌实际上在最近几个月将其移动AI体验的某些部分从本地处理转移到了基于云的处理。

那些"暴力"模型似乎正在获胜,而且当用户与他们私人计算云服务互动时,公司也能获得更多数据,这无伤大雅。

或许接受现实?

尽管本地AI有很多兴趣点,但到目前为止,这还没有转化为你口袋里的AI革命。我们迄今为止看到的大多数AI进步依赖于云系统规模的不断扩大和在那里运行的通用模型。行业专家表示,幕后正在进行大量工作,以缩小AI模型使其在手机和笔记本电脑上运行,但这需要时间才能产生影响。

与此同时,本地AI处理以有限方式存在。谷歌仍然使用Tensor NPU来处理Magic Cue等功能的敏感数据,而三星则充分利用了高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到对云端的依赖可能影响用户,在系统设置中提供了一个切换选项,将AI处理限制为仅在设备上运行。这限制了可用的AI功能数量,其他功能也无法正常工作,但你会知道没有个人数据被共享。没有其他智能手机提供此选项。

Galaxy AI toggle

三星提供简单的切换来禁用云端AI并在设备上运行所有工作负载。

三星发言人Elise Sembach表示,该公司的AI工作以增强体验同时保持用户控制为基础。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私以及即使在没有网络连接时的可靠性,"Sembach说。

即使你不使用边缘AI,对其的兴趣也可能是一件好事。为这个AI丰富的未来做规划可以鼓励设备制造商投资更好的硬件——比如运行所有理论AI模型所需的更多内存。

"我们 definitely 建议我们的合作伙伴增加他们的RAM容量,"Sukumar说。确实,谷歌、三星等人在很大程度上增加了内存容量以支持设备端AI。即使云端正在获胜,我们也会接受额外的RAM。