手机中的神经处理单元(NPU)性能不断提升,但用户的AI体验却没有相应提高,这背后的原因值得深入探讨。
NPU:从数字信号处理器到专用AI硬件
现代智能手机中的系统级芯片(SoC)集成了多种计算单元,包括CPU核心、GPU和图像控制器等。而NPU作为较新的组件,其发展历程可追溯到数字信号处理器(DSP)。
"我们的AI处理之旅大约始于15或20年前,最初的锚点是信号处理,"高通AI产品主管Vinesh Sukumar解释道。DSP与NPU在架构上有相似之处,但NPU针对并行计算、Transformer架构以及处理大量参数进行了更多优化。
尽管NPU在芯片中越来越突出,但它并非边缘AI处理的必需品。CPU速度较慢但功耗低,GPU处理能力更强但功耗高,在某些场景下如游戏运行时,使用GPU处理AI工作负载可能更为合适。
边缘计算的困境:模型大小与性能限制
遗憾的是,许多设备中的NPU经常处于闲置状态。本地与云端AI工具的竞争明显偏向后者,因为大语言模型(LLM)的自然栖息地在云端。
"云端的计算资源总是比移动设备更多,"谷歌Pixel团队高级产品经理Shenaz Zack表示。"如果你想要最准确的模型或最强大的模型,这些都必须在云端完成。"
以谷歌的Gemini Nano模型为例,最新版本具有32k个token的上下文窗口,比上一版本提升了2倍以上。然而,云端Gemini模型的上下文窗口可达100万个token,能处理的数据量要大得多。
将AI模型压缩到手机或笔记本上需要做出妥协,比如减少模型中的参数数量。联发科副总裁Mark Odani指出,云端模型运行着数千亿个参数,而消费设备目前无法处理如此庞大的模型,开发者必须大幅缩减边缘模型的大小。联发科最新第九代NPU可处理约30亿个参数,与云端模型相差数个数量级。
内存限制也是制约因素,因此移动优化的AI模型通常采用量化技术,即以较低精度运行模型。例如,运行具有70亿参数的模型时,半精度(FP16)标准需要占用13-14GB内存,而四分之一精度(FP4)可将内存占用降至几GB。
"当压缩到3-4GB时,这是集成到内存受限形式因素(如智能手机)的最佳平衡点,"Sukumar表示。"高通和整个生态系统已投入大量资金研究各种压缩模型的方法,同时保持质量不下降。"
隐私与信任:本地AI的核心优势
如果云端更快更便捷,为何还要费心优化边缘计算并使用NPU消耗更多功率?依赖云端意味着接受对AI数据中心运营方的依赖和信任,而这并不总是适当的。
"我们始终从用户隐私开始考虑,"高通的Sukumar解释道。"最好的推断不是泛化的,而是基于用户的兴趣和生活中发生的事情进行个性化定制。实现这种体验需要对模型进行微调,而这需要个人数据,在本地存储和处理这些数据更为安全。"
即使公司在云服务中关于隐私的承诺听起来很美好,它们远非保证。通用聊天助手友好的氛围也鼓励人们分享大量个人信息,如果这些助手在云端运行,您的数据也会随之暴露。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录被交给出版商。
"人们正在使用许多生成式AI助手,就像使用治疗师一样,"Odani说。"你不知道有一天所有这些内容是否会出现在互联网上。"
尽管如此,并非所有人都如此担忧。Zack声称谷歌已建立"世界上最安全的云基础设施",能够在提供最佳结果的地方处理数据。她以Video Boost和Pixel Studio为例,指出谷歌的云是使这些体验快速且高质量的唯一途径。
云端主导:实际应用中的局限性
似乎每个人都认同混合方法是提供真正有用AI功能的必要条件(假设这些功能存在),在必要时将数据发送到更强大的云服务。但这种对无缝体验的追求也可能掩盖了您的数据正在发生什么。
以新发布的OnePlus 15为例,该手机配备了高通全新的骁龙8 Elite Gen 5,其NPU比上一代快37%。尽管有这些本地AI能力,OnePlus仍严重依赖云端分析您的个人数据。AI Writer和AI录音等功能连接到公司服务器进行处理,OnePlus向我们保证这个系统完全安全私密。
同样,摩托罗拉今年夏天发布了一系列折叠屏Razr手机,集成了来自多个提供商的AI功能。这些手机可以使用AI总结您的通知,但除非您阅读条款和条件,否则您可能会惊讶于有多少处理发生在云端。如果您购买Razr Ultra,总结将在您的手机上进行。然而,RAM和NPU功能较少的廉价型号使用云服务处理通知。
即使原始设备制造商(OEM)专注于使用NPU硬件,结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该处理您手机上的所有数据并生成有用的建议和操作,但除了显示日历事件外,它们很少做其他事情。事实上,谷歌已暂时从Pixel手机中移除了Daily Hub,因为该功能几乎没有做什么,而谷歌是本地AI的先驱,拥有Gemini Nano。
未来展望:接受现实还是期待变革?
尽管对本地AI有浓厚兴趣,但迄今为止,这并未转化为口袋中的AI革命。我们目前看到的大部分AI进步依赖于云系统规模的不断扩大和运行的通用模型。
行业专家表示,幕后正在进行大量工作,以缩小AI模型使其在手机和笔记本上运行,但这需要时间才能产生影响。
与此同时,本地AI处理正以有限方式存在。谷歌仍利用Tensor NPU处理Magic Cue等功能的敏感数据,而三星则充分利用高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到对云端的依赖可能影响用户,因此在系统设置中提供了切换选项,限制AI处理仅在设备上运行。
"One UI中的本地处理切换反映了这种方法,"三星发言人Elise Sembach表示。"它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私,即使没有网络连接也能保持可靠性。"
对边缘AI的兴趣可能是一件好事,即使您不使用它。为这个AI丰富的未来做规划可以鼓励设备制造商投资更好的硬件——比如运行那些理论AI模型所需的更多内存。
"我们确实建议我们的合作伙伴增加RAM容量,"Sukumar说。确实,谷歌、三星等公司很大程度上增加了内存容量以支持本地AI。即使云端正在获胜,我们也会接受额外的RAM。
结论
手机NPU的持续升级并未带来预期的AI体验提升,这反映了当前技术发展的复杂现实。尽管硬件性能不断提高,但AI模型大小、内存限制、隐私需求等多重因素共同制约了本地AI的发展。大多数关键AI功能仍需依赖云端处理,这不仅是因为云端计算能力更强,还因为数据收集和商业模式的影响。
未来,随着模型压缩技术的进步和硬件性能的提升,本地AI可能会发挥更大作用。但在可预见的未来,云端与边缘计算的协同工作模式仍将是主流,用户需要在便利性、性能和隐私之间做出权衡选择。


