手机NPU持续升级,为何AI体验仍无质的飞跃?

0

过去几年的几乎所有技术创新都聚焦于生成式AI。这些革命性系统大多运行在数据中心的强大服务器上,与此同时,芯片制造商却不断吹嘘其消费设备中神经网络处理单元(NPU)的强大能力。每过几个月,同样的宣传就会出现:新一代NPU比前代快30%或40%。这应该能让你完成某些重要任务,但没有人真正解释这具体是什么。

专家们设想了一个安全、个性化的本地AI工具未来,但这是否与AI热潮的现实相符?"边缘"AI听起来很棒,但几乎所有重要的AI工具都在云端运行。那么,你手机里的那块芯片到底在做什么?

什么是NPU?

公司推出新产品时,常常陷入最高级和模糊营销术语的泥潭,因此无法很好地解释技术细节。大多数购买手机的人不清楚为什么需要硬件来运行AI工作负载,而所谓的优势大多是理论上的。

如今许多旗舰级消费者处理器是片上系统(SoC),因为它们在单一硅片上集成了多个计算元素——如CPU核心、GPU和图像控制器。这适用于高通的骁龙或谷歌的Tensor等移动部件,也适用于英特尔酷睿Ultra等PC组件。

Qualcomm芯片设计NPU

NPU是芯片中较新的组成部分,但它不是凭空出现的——有一系列技术演进带来了我们今天所见的NPU。NPU擅长其工作是因为它们强调并行计算,这一点在其他SoC组件中也很重要。

高通在其新产品发布中投入大量时间谈论其Hexagon NPU。敏锐的观察者可能会记得,这个品牌已被重用于该公司的数字信号处理器(DSP)系列,这有其充分理由。

"我们进入AI处理的旅程可能始于15或20年前,当时我们的第一个锚点是信号处理,"高通AI产品主管Vinesh Sukumar表示。DSP与NPU具有相似的架构,但它们要简单得多,专注于处理音频(如语音识别)和调制解调器信号。

随着我们称为"人工智能"的技术集合的发展,工程师们开始将DSP用于更多类型的并行处理,如长短期记忆(LSTM)。Sukumar解释说,当行业对卷积神经网络(CNN)——计算机视觉等应用的基础技术——着迷时,DSP开始专注于矩阵函数,这对生成式AI处理也至关重要。

尽管有这种架构上的渊源,但说NPU只是花哨的DSP并不完全正确。"如果你从广义上谈论DSP,是的,[NPU]是一种数字信号处理器,"联发科助理副总裁Mark Odani说。"但它已经走了很长的路,并且在并行性、transformer工作方式以及处理大量参数方面进行了更多优化。"

尽管在新芯片中如此突出,但对于在"边缘"运行AI工作负载来说,NPU并非严格必要。"边缘"一词区分了本地AI处理和基于云的系统。CPU比NPU慢,但可以使用更少的电力处理一些轻量级工作负载。同时,GPU通常可以比NPU处理更多数据,但它们使用更多电力。高通的Sukumar表示,有时你可能希望这样做。例如,在运行游戏的同时运行AI工作负载可能会优先使用GPU。

"在这里,你成功的衡量标准是在保持空间分辨率、像素动态范围的同时,不能降低帧率,并且能够为玩家在该空间内提供AI建议,"Sukumar说。"在这种用例中,实际上在图形引擎中运行是有意义的,因为这样你就不必在图形和像NPU这样的专用AI引擎之间不断切换。"

边缘生存的艰难

不幸的是,许多设备中的NPU常常处于闲置状态(不仅是在游戏期间)。本地与云端AI工具的组合偏向后者,因为那是大型语言模型(LLM)的自然栖息地。AI模型在强大的服务器上进行训练和微调,这也是它们运行最佳的地方。

基于服务器的AI,如完整版的Gemini和ChatGPT,不像在手机NPU上运行的模型那样受资源限制。考虑谷歌最新的设备端Gemini Nano模型,其上下文窗口为32k个token。这比上一版本提高了2倍以上。然而,基于云的Gemini模型的上下文窗口高达100万个token,意味着它们可以处理大得多的数据量。

基于云和边缘AI硬件都将持续改进,但平衡可能不会向NPU倾斜。"云将始终比移动设备拥有更多计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack说。

"如果你想要最准确的模型或最强大的模型,所有这些都必须在云中完成,"Odani说。"但我们发现,在许多用例中,比如总结一些文本或与语音助手交谈,许多这些事情可以在30亿参数内完成。"

将AI模型压缩到手机或笔记本电脑上需要一些权衡——例如,减少模型中包含的参数。Odani解释说,基于云的模型运行数千亿个参数,这些权重决定了模型如何处理输入token以生成输出。目前你无法在消费设备上运行类似的东西,因此开发人员必须大幅缩减边缘模型的大小。Odani表示,联发科最新的第九代NPU可以处理大约30亿个参数——相差几个数量级。

手机或笔记本电脑中可用的内存量也是一个限制因素,因此移动优化的AI模型通常会被量化。这意味着模型对下一个token的估计以较低的精度运行。假设你想在你的设备上运行其中一个较大的开源模型,如Llama或Gemma 7b。事实上的标准是FP16,称为半精度。在这个级别,拥有70亿参数的模型将占用13或14GB内存。降至FP4(四分之一精度)会将模型在内存中的大小减少到几GB。

"当你压缩到比如说3到4GB时,这是集成到智能手机等内存受限形态中的最佳平衡点,"Sukumar说。"在生态系统和高通方面已经有很多投资,研究各种压缩模型的方法而不损失质量。"

在移动设备上用这些限制创建通用AI是困难的,但计算机——尤其是智能手机——是数据的源泉,可以泵入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI都针对特定的、狭隘的用例,如分析屏幕截图或建议日历约会。谷歌表示,其最新的Pixel手机运行了100多个AI模型,包括生成式和传统模型。

即使是AI怀疑论者也能认识到,这个格局正在迅速变化。在将AI模型缩小和优化以适应手机或笔记本电脑的过程中,新的云模型可能出现,使这项工作变得过时。这也是为什么第三方开发者一直迟迟没有在应用中利用NPU处理的原因。他们要么必须接入现有的设备端模型,这涉及到限制和不断变化的发展目标,要么部署自己的定制模型。目前这两个选项都不是理想选择。

信任问题

如果云更快更简单,为什么要费心优化边缘并用NPU消耗更多电力?依赖云意味着接受对运营AI数据中心的人的一定程度的依赖和信任,而这种依赖和信任并不总是适当的。

"我们总是从用户隐私开始,"高通的Sukumar表示。他解释说,最好的推理不是通用的——它是基于用户的兴趣和他们生活中正在发生的事情进行个性化调整的。微调模型以提供这种体验需要个人数据,而本地存储和处理这些数据更安全。

即使公司在云服务中关于隐私的说法正确,它们也远非保证。通用聊天机器人的友好氛围也鼓励人们透露大量个人信息,如果这个助手在云端运行,你的数据也在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录被交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道你的数据将发生什么。

"人们正在使用许多这些生成式AI助手,就像使用治疗师一样,"Odani说。"你不知道有一天所有这些东西是否会出现在互联网上。"

并非所有人都如此担心。Zack声称谷歌已经建立了"世界上最安全的云基础设施",使其能够在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio为例说明这种方法,指出谷歌的云是使这些体验快速和高质量的唯一途径。该公司最近宣布了其新的Private AI Compute系统,声称它与本地AI一样安全

即使这是真的,边缘还有其他优势——边缘AI比云服务更可靠。"设备端处理很快,"Odani说。"有时我在与ChatGPT交谈,我的Wi-Fi断开了或 whatever,它就卡住了。"

托管基于云的AI模型的服务不只是一个网站——今天的互联网是高度相互依赖的,内容分发网络、DNS提供商、托管和其他服务在出现故障时可能会降级或关闭你最喜欢的AI。当Cloudflare最近自造成停机时,ChatGPT用户恼怒地发现他们信赖的聊天机器人不可用。本地AI功能没有这个缺点。

云端主导

似乎每个人都同意,混合方法是提供真正有用的AI功能(假设这些功能存在)所必需的——在必要时将数据发送到更强大的云服务——谷歌、苹果和其他所有手机制造商都这样做。但对无缝体验的追求也可能掩盖了你的数据正在发生什么。更常见的情况是,你手机上的AI功能并没有以安全、本地的方式运行,即使设备有硬件可以做到这一点。

例如,新的OnePlus 15。这款手机拥有高通全新的骁龙8 Elite Gen 5,其NPU比上一代快37%,无论这意味着什么。即使有了所有这些设备端AI能力,OnePlus仍然严重依赖云端来分析你的个人数据。AI Writer和AI Recorder等功能连接到公司服务器进行处理,OnePlus向我们保证这个系统完全安全和私密。

同样,摩托罗拉在夏季发布了一系列新的Razr折叠手机,搭载来自多个提供商的AI功能。这些手机可以使用AI总结你的通知,但除非你阅读条款和条件,否则你可能惊讶于有多少发生在云端。如果你购买Razr Ultra,这种总结发生在你的手机上。然而,RAM和NPU功能较少的较便宜型号使用云服务来处理你的通知。同样,摩托罗拉表示这个系统是安全的,但更安全的选择是为这些较便宜的手机重新优化模型。

即使当原始设备制造商(OEM)专注于使用NPU硬件时,结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该能够处理你手机上的所有数据并生成有用的建议和操作,但它们除了显示日历事件外很少做其他事情。事实上,谷歌已经暂时从Pixel中移除了Daily Hub,因为该功能几乎没有做什么,而谷歌是使用Gemini Nano进行本地AI的先驱。实际上,谷歌最近几个月已经将其移动AI体验的一部分从本地处理转移到了基于云的处理。

那些"暴力"模型似乎正在获胜,而且当用户与他们私有计算云服务交互时,公司也能获得更多数据,这无伤大雅。

也许能得到的就接受?

人们对本地AI有很多兴趣,但到目前为止,这还没有转化为你口袋里的AI革命。我们迄今为止看到的大多数AI进步依赖于云系统规模的不断扩大和在那里运行的通用模型。行业专家表示,幕后正在进行大量工作,以缩小AI模型使其在手机和笔记本电脑上运行,但这需要时间才能产生影响。

与此同时,本地AI处理以有限的方式存在。谷歌仍然利用Tensor NPU处理Magic Cue等功能的敏感数据,而三星则充分利用了高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到对云的依赖可能如何影响用户,在系统设置中提供了一个切换选项,将AI处理限制为仅在设备上运行。这限制了可用的AI功能数量,其他功能也无法正常工作,但你会知道没有任何个人数据被共享。没有其他智能手机提供此选项。

Galaxy AI切换开关

三星提供简单的切换开关来禁用云AI并在设备上运行所有工作负载。

三星发言人Elise Sembach表示,该公司的AI工作重点是增强体验同时保持用户控制。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私以及在无网络连接情况下的可靠性,"Sembach说。

即使你不使用边缘AI,对其的兴趣可能也是好事。为这个AI丰富的未来规划可以鼓励设备制造商投资更好的硬件——如更多内存来运行所有那些理论上的AI模型。

"我们确实建议我们的合作伙伴增加RAM容量,"Sukumar说。确实,谷歌、三星等在很大程度上增加了内存容量以支持设备端AI。即使云端正在获胜,我们也会接受额外的RAM。