手机NPU持续升级，为何AI体验仍无明显提升？

在过去的几年里，几乎所有的技术革新都聚焦于生成式人工智能。这些所谓的革命性系统大多运行在遥远数据中心的大型昂贵服务器上，与此同时，芯片制造商却不断吹嘘其消费设备中神经网络处理单元(NPU)的强大能力。每隔几个月，同样的故事上演：新款NPU比前一代快30%或40%。这理应让我们能够做一些重要的事情，但没有人真正解释那是什么。

专家们设想了一个拥有安全、个人化AI工具的未来，这些工具具备设备端智能，但这与AI繁荣的现实是否匹配？"边缘"上的AI听起来很棒，但几乎所有重要的AI工具都在云端运行。那么，你手机里的那块芯片到底在做什么？

什么是NPU？

推出新产品的公司常常陷入最高级和模糊营销语言的泥潭，因此他们无法很好地解释技术细节。对于大多数购买手机的人来说，他们不清楚为什么需要运行AI工作负载的硬件，而所谓的益处大多是理论上的。

如今许多旗舰级消费者处理器都是片上系统(SoC)，因为它们在单一硅片上集成了多个计算元素——如CPU核心、GPU和图像控制器。这适用于高通的骁龙或谷歌的Tensor等移动部件，也适用于英特尔酷睿Ultra等PC组件。

NPU是芯片中较新的 additions，但它并非一日出现——我们今天的NPU有着其发展脉络。NPU擅长它们的工作，因为它们强调并行计算，这在其他SoC组件中也很重要。

高通在其新产品发布中投入大量时间谈论其Hexagon NPU。细心的观察者可能会记得，这个品牌已被重用于其数字信号处理器(DSP)系列，这样做是有充分理由的。

"我们进入AI处理领域可能始于15或20年前，当时我们的第一个锚点是信号处理，"高通AI产品负责人Vinesh Sukumar表示。DSP与NPU具有相似的架构，但它们简单得多，专注于处理音频(如语音识别)和调制解调器信号。

随着我们称为"人工智能"的技术集合的发展，工程师们开始使用DSP进行更多类型的并行处理，如长短期记忆(LSTM)。Sukumar解释说，当行业对卷积神经网络(CNN)——计算机视觉应用的基础技术——着迷时，DSP开始专注于矩阵函数，这也是生成式AI处理所必需的。

尽管存在这种架构上的传承，但说NPU只是花哨的DSP并不完全正确。"如果你从一般意义上谈论DSP，是的，[NPU]是一种数字信号处理器，"联发科助理副总裁Mark Odani说。"但它已经走过了漫长的道路，并且在并行性、transformers工作方式以及处理大量参数方面进行了更多优化。"

尽管NPU在新芯片中如此突出，但对于在"边缘"运行AI工作负载来说，NPU并非严格必要。边缘是指本地AI处理与基于云的系统之间的区别。CPU比NPU慢，但可以使用更少的电力处理一些轻量级工作负载。同时，GPU通常可以比NPU处理更多数据，但它们使用更多电力。根据高通的Sukumar的说法，有时你可能想要这样做。例如，在运行游戏的同时运行AI工作负载可能会青睐GPU。

"在这里，你成功的衡量标准是，在保持空间分辨率、像素动态范围的同时，不能降低帧率，并且能够为玩家在该空间内提供AI建议，"Sukumar说。"在这种用例中，实际上在图形引擎中运行是有意义的，因为那样你就不必在图形和像NPU这样的专用AI引擎之间不断切换。"

边缘计算的现实困境

不幸的是，许多设备中的NPU常常处于空闲状态(不仅在游戏期间)。本地与云端AI工具的组合倾向于后者，因为那是大型语言模型(LLM)的自然栖息地。AI模型在强大的服务器上进行训练和微调，这也是它们运行最佳的地方。

基于服务器的AI，如完整版的Gemini和ChatGPT，不像在手机NPU上运行的模型那样受资源限制。考虑谷歌最新的设备端Gemini Nano模型，其上下文窗口为32k个token。这比上一版本提高了2倍以上。然而，基于云的Gemini模型上下文窗口高达100万个token，这意味着它们可以处理大得多的数据量。

基于云和边缘的AI硬件都将持续改进，但平衡可能不会向NPU倾斜。"云将始终比移动设备拥有更多的计算资源，"谷歌Pixel团队高级产品经理Shenaz Zack说。

"如果你想要最准确的模型或最强大的模型，那都必须在云端完成，"Odani说。"但我们发现，在许多用例中，比如总结一些文本或与语音助手交谈，这些事情都可以在30亿参数内完成。"

将AI模型压缩到手机或笔记本电脑上涉及一些妥协——例如，减少模型中包含的参数。Odani解释说，基于云的模型运行数千亿参数，这些权重决定了模型如何处理输入token以生成输出。目前你无法在消费设备上运行任何类似的东西，因此开发人员必须大幅缩小边缘模型的大小。Odani说联发科最新的第九代NPU可以处理约30亿参数——相差几个数量级。

手机或笔记本电脑中可用的内存量也是一个限制因素，因此移动优化的AI模型通常会被量化。这意味着模型对下一个token的估计以较低的精度运行。假设你想在你的设备上运行一个较大的开放模型，如Llama或Gemma 7b。事实上的标准是FP16，称为半精度。在该级别，一个有70亿参数的模型将占用13或14GB内存。降至FP4(四分之一精度)会将模型在内存中的大小减少到几GB。

"当你压缩到比如说3到4GB时，这是集成到像智能手机这样内存受限形态因素中的最佳点，"Sukumar说。"在生态系统和高通方面已经投入了大量资金，研究各种压缩模型的方法而不损失质量。"

在移动设备上创建具有这些限制的通用AI很困难，但计算机——尤其是智能手机——是数据的丰富来源，这些数据可以泵入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI都针对特定、狭窄的用例，如分析屏幕截图或建议日历约会。谷歌表示其最新的Pixel手机运行了100多个AI模型，包括生成式和传统模型。

即使是AI怀疑论者也能认识到，形势正在迅速变化。在将AI模型缩小并优化到手机或笔记本电脑上的同时，新的云模型可能出现，使这项工作变得过时。这也是为什么第三方开发者一直未能充分利用应用程序中的NPU处理的原因。他们要么必须连接到现有的设备端模型，这涉及到限制和不断变化的发展目标，要么部署自己的自定义模型。目前这两个选择都不是很好的选择。

信任问题

如果云端更快更简单，为什么要费心优化边缘并使用NPU消耗更多电力？依赖云端意味着接受对运营AI数据中心的人的一定程度依赖和信任，而这种依赖和信任可能并不总是合适的。

"我们总是从用户隐私开始，"高通的Sukumar表示。他解释说，最好的推理不是一般性质的——它是基于用户兴趣和他们生活中正在发生的事情进行个性化定制的。微调模型以提供这种体验需要个人数据，而存储和处理这些数据在本地更安全。

即使公司在云服务中说对了关于隐私的话，它们也远非保证。通用聊天机器人友好、有帮助的氛围也鼓励人们透露大量个人信息，如果这个助手在云端运行，你的数据也在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录被交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道你的数据将会发生什么。

"人们正在使用许多生成式AI助手，就像治疗师一样，"Odani说。"你不知道有一天所有这些东西会不会都在网上出现。"

并非所有人都如此担忧。Zack声称谷歌已经建立了"世界上最安全的云基础设施"，使其能够在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio为例说明这种方法，指出谷歌的云是使这些体验快速且高质量的唯一途径。该公司最近宣布了其新的Private AI Compute系统，声称该系统与本地AI一样安全。

即使这是真的，边缘计算也有其他优势——边缘AI只是比云服务更可靠。"设备端处理很快，"Odani说。"有时我正在与ChatGPT交谈，我的Wi-Fi断开或出了什么问题，它就会卡顿一下。"

托管基于云的AI模型的服务不只是一个网站——今天的互联网是高度相互依赖的，内容交付网络、DNS提供商、托管和其他服务可能在出现故障时降级或关闭你最喜欢的AI。当Cloudflare最近遭受自引发的中断时，ChatGPT用户恼怒地发现他们可靠的聊天机器人不可用。本地AI功能没有这个缺点。

云端主导

似乎每个人都认为需要采用混合方法来提供真正有用的AI功能(假设这些功能存在)，在必要时将数据发送到更强大的云服务——谷歌、苹果和所有其他手机制造商都这样做。但对无缝体验的追求也可能掩盖了你的数据正在发生什么。在大多数情况下，你手机上的AI功能并没有以安全、本地的方式运行，即使该设备有硬件可以做到这一点。

以新的OnePlus 15为例。这款手机拥有高通全新的骁龙8 Elite Gen 5，其NPU比上一代快37%，无论这意味着什么。尽管有所有这些设备端AI功能，OnePlus仍然严重依赖云端来分析你的个人数据。AI Writer和AI Recorder等功能连接到公司服务器进行处理，OnePlus向我们保证这个系统是完全安全私密的。

同样，摩托罗拉在今年夏天发布了一系列新的Razr折叠手机，这些手机加载了来自多个提供商的AI功能。这些手机可以使用AI总结你的通知，但除非你阅读条款和条件，否则你可能惊讶于有多少发生在云端。如果你购买Razr Ultra，总结发生在你的手机上。然而，RAM和NPU功能较少的较便宜型号使用云服务来处理你的通知。同样，摩托罗拉表示这个系统是安全的，但更安全的选择是为其较便宜的手机重新优化模型。

即使当OEM专注于使用NPU硬件时，结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该能够处理你手机上的所有数据并生成有用的建议和操作，但它们除了显示日历事件外很少做其他事情。事实上，谷歌已经暂时从Pixels中移除了Daily Hub，因为这个功能几乎没有做任何事情，而谷歌是使用Gemini Nano进行本地AI的先驱。实际上，谷歌最近几个月已经将其移动AI体验的某些部分从本地处理转移到了基于云的处理。

那些"暴力"模型似乎正在获胜，而且当用户与他们私有计算云服务互动时，公司也能获得更多数据，这并没有坏处。

或许我们应该接受我们能得到的？

人们对本地AI有很多兴趣，但到目前为止，这并没有转化为口袋里的AI革命。我们迄今为止看到的大多数AI进步依赖于云系统规模的不断扩大和在那里运行的通用模型。行业专家表示，幕后正在进行大量工作，将AI模型缩小到在手机和笔记本电脑上运行，但这需要时间才能产生影响。

与此同时，本地AI处理以有限的方式存在。谷歌仍然使用Tensor NPU来处理Magic Cue等功能的敏感数据，而三星则充分利用了高通的AI芯片组。虽然Now Brief的实用性值得怀疑，但三星意识到对云端的依赖可能如何影响用户，在系统设置中提供了一个切换选项，将AI处理限制为仅在设备上运行。这限制了可用的AI功能数量，其他功能也无法正常工作，但你会知道没有任何个人数据被共享。没有其他智能手机提供此选项。

Galaxy AI toggle

三星提供简单的切换来禁用云端AI并所有工作负载在设备上运行。

三星发言人Elise Sembach表示，该公司的AI工作以增强体验同时保持用户控制为基础。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择，以获得更快的性能、增强的隐私和可靠性，即使在没有网络连接的情况下也是如此，"Sembach说。

即使你不使用边缘AI，对它的兴趣也可能是一件好事。为这个AI丰富的未来进行规划可以鼓励设备制造商投资更好的硬件——如更多的内存来运行所有那些理论上的AI模型。

"我们 definitely 建议我们的合作伙伴增加他们的RAM容量，"Sukumar说。确实，谷歌、三星等人在很大程度上增加了内存容量以支持设备端AI。即使云端正在获胜，我们也会接受额外的RAM。

结论

手机NPU的持续升级并未带来明显的AI体验提升，这反映了当前移动AI发展的复杂挑战。尽管硬件性能不断提高，但云端AI在计算能力、模型规模和处理速度方面仍然占据明显优势。本地AI虽然提供了隐私保护、可靠性和离线功能等优势，但在功能和性能上仍受到硬件限制的制约。

未来，随着模型压缩技术的进步和硬件性能的提升，本地AI可能会获得更多发展空间。然而，短期内，混合计算模式——将敏感任务放在本地处理，将复杂计算任务交给云端——可能是最实用的解决方案。对于用户而言，理解这种权衡并根据自己的需求选择合适的AI服务，将是获得最佳体验的关键。