引言:硬件升级与用户体验的落差
近几年来,几乎所有技术创新都聚焦于生成式AI。这些革命性系统大多运行在数据中心的强大服务器上,与此同时,芯片制造商却大力宣传其消费设备中神经处理单元(NPU)的强大能力。每隔几个月,我们都会听到新一代NPU比前一代快30%或40%的消息,但这些性能提升究竟带来了什么实际应用?很少有人能解释清楚。
专家们描绘了一个安全、个性化的本地AI工具未来,但这与当前的AI热潮现实相符吗?"边缘"AI听起来很美好,但几乎所有重要的AI工具都在云端运行。那么,你手机里的那块芯片到底在做什么?
NPU技术解析:从信号处理器到AI引擎
NPU的演进历程
现代旗舰消费处理器大多采用片上系统(SoC)设计,将CPU核心、GPU和图像控制器等多种计算元件集成在单一硅片上。这包括高通的骁龙、谷歌的Tensor等移动处理器,以及英特尔的酷睿Ultra等PC组件。
NPU是芯片中的新成员,但它并非凭空出现,其发展有着清晰的脉络。NPUs擅长并行计算,这与SoC其他组件的重要性相似。
高通在其新产品发布会上花费大量时间介绍其Hexagon NPU。敏锐的观察者可能会记得,这个品牌名称被重复使用自公司的数字信号处理器(DSP)系列,这背后有充分原因。
"我们进入AI处理领域大约始于15-20年前,最初的锚点是信号处理,"高通AI产品负责人Vinesh Sukumar表示。DSPs与NPUs具有相似的架构,但前者更简单,专注于处理音频(如语音识别)和调制解调器信号。
随着"人工智能"技术的发展,工程师们开始将DSPs用于更多类型的并行处理,如长短期记忆(LSTM)。Sukumar解释说,当行业对卷积神经网络(CNNs)——计算机视觉应用的基础技术——着迷时,DSPs开始专注于矩阵运算,这也是生成式AI处理所必需的。
尽管存在架构上的传承,但简单地将NPUs视为花哨的DSPs并不准确。"如果你从一般意义上谈论DSPs,是的,[NPU]是一种数字信号处理器,"联发科助理副总裁Mark Odani表示,"但它已经走了很长的路,并且在并行性、transformers工作方式以及处理大量参数方面进行了更多优化。"
NPU与其他计算单元的权衡
尽管NPUs在新芯片中如此突出,但对于在"边缘"运行AI工作负载而言,它们并非绝对必要。CPU比NPU慢,但可以使用更少的能源处理一些轻量级工作负载。同时,GPU通常可以比NPU处理更多数据,但功耗也更高。根据高通的Sukumar的说法,有时你可能需要这样做。
例如,在运行游戏的同时处理AI工作负载可能更适合使用GPU。"在这里,成功的衡量标准是,在保持空间分辨率、像素动态范围的同时,不能降低帧率,并且能够在该空间内为玩家提供AI建议,"Sukumar表示,"在这种用例中,在图形引擎中运行实际上是有意义的,因为这样你就不必在图形和像NPU这样的专用AI引擎之间不断切换。"
边缘AI的挑战:性能与现实的差距
不幸的是,许多设备中的NPU大多处于闲置状态(不仅在游戏期间)。本地与云端AI工具的组合更倾向于后者,因为这是大语言模型(LLMs)的自然栖息地。AI模型在强大的服务器上训练和微调,这也是它们运行最佳的地方。
基于服务器的AI,如Gemini和ChatGPT的完整版本,不像在手机NPU上运行的模型那样受资源限制。考虑谷歌最新的设备端Gemini Nano模型,其上下文窗口为32k个token,比上一版本提高了2倍以上。然而,基于云端的Gemini模型上下文窗口可达100万个token,意味着它们可以处理更大 volumes的数据。
模型压缩与参数限制
云端和边缘AI硬件都将持续改进,但平衡可能不会向NPU倾斜。"云总是比移动设备拥有更多的计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack表示。
"如果你想要最准确的模型或最强大的模型,所有这些都必须在云端完成,"Odani说,"但我们发现,在许多用例中,比如总结一些文本或与语音助手交谈,许多这些功能可以容纳在30亿个参数以内。"
将AI模型压缩到手机或笔记本电脑中需要一些妥协,例如减少模型中包含的参数。Odani解释说,基于云端的模型运行数千亿个参数,这些权重决定了模型如何处理输入token以生成输出。目前无法在消费设备上运行类似规模的模型,因此开发人员必须大幅缩减边缘模型的大小。Odani表示,联发科最新的第九代NPU可以处理约30亿个参数——相差几个数量级。
手机或笔记本电脑中可用的内存量也是一个限制因素,因此移动优化的AI模型通常会被量化。这意味着模型对下一个token的估计以较低的精度运行。假设你想在你的设备上运行一个较大的开源模型,如Llama或Gemma 7b。事实上的标准是FP16,即半精度。在该级别,70亿参数的模型将占用13或14GB内存。降至FP4(四分之一精度)可将模型在内存中的大小减少到几GB。
"当你压缩到大约3-4GB时,这是集成到像智能手机这样的内存受限形态因素中的最佳平衡点,"Sukumar表示,"在生态系统和高通方面,已经投入大量资金研究各种压缩模型的方法而不损失质量。"
开发者困境与市场接受度
创建具有这些限制的 generalized AI对于移动设备来说很困难,但计算机——尤其是智能手机——是数据的丰富来源,可以泵入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI针对特定的、狭义的用例,如分析屏幕截图或建议日历约会。谷歌表示,其最新的Pixel手机运行了100多个AI模型,包括生成式和传统模型。
即使是AI怀疑论者也能认识到格局正在迅速变化。在为手机或笔记本电脑缩小和优化AI模型的同时,新的云端模型可能出现,使这项工作过时。这也是为什么第三方开发者一直缓慢地在应用中利用NPU处理的原因。他们要么必须接入现有的设备端模型,这涉及限制和快速变化的发展目标,要么部署自己的自定义模型。目前这两个选项都不是理想选择。
信任问题:隐私与可靠性的考量
如果云端更快更简单,为什么要费心优化边缘计算并使用NPU消耗更多能源?依赖云端意味着接受对AI数据中心运营商的一定程度的依赖和信任,这可能并不总是合适的。
"我们始终将用户隐私作为考虑因素,"高通的Sukumar表示。他解释说,最好的推理不是一般性质的——它是基于用户兴趣和生活中发生的事情进行个性化调整的。微调模型以提供这种体验需要个人数据,在本地存储和处理这些数据更安全。
即使公司在云端服务中说对了关于隐私的话,它们也远非保证。通用聊天助手的友好氛围也鼓励人们透露大量个人信息,如果这个助手在云端运行,你的数据也会在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录被移交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道你的数据将发生什么。
"人们正在使用许多这些生成式AI助手,就像使用治疗师一样,"Odani说,"你不知道有一天所有这些内容是否会出现在互联网上。"
云端服务的可靠性挑战
并非所有人都如此担忧。Zack声称谷歌已经建立了"世界上最安全的云基础设施",允许它在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio为例说明这种方法,指出谷歌的云是使这些体验快速和高质量的唯一途径。该公司最近宣布了新的Private AI Compute系统,声称它与本地AI一样安全。
即使这是真的,边缘计算还有其他优势——边缘AI比云服务更可靠。"设备端处理速度快,"Odani说,"有时我正在与ChatGPT交谈,我的Wi-Fi断开或其他问题,它就会卡顿一下。"
托管基于云的AI模型的服务不仅仅是单个网站——今天的互联网是高度相互依赖的,内容分发网络、DNS提供商、托管和其他服务在出现故障时可能会降级或关闭你最喜欢的AI。当Cloudflare最近自造成停机时,ChatGPT用户发现他们信赖的聊天机器人不可用,感到恼火。本地AI功能没有这个缺点。
云端主导:混合应用的真相
似乎每个人都同意,提供真正有用的AI功能(假设这些功能存在)需要采用混合方法,在必要时将数据发送到更强大的云服务——谷歌、苹果和所有其他手机制造商都这样做。但对无缝体验的追求也可能掩盖了你的数据正在发生什么。更常见的是,你手机上的AI功能并没有以安全、本地的方式运行,即使设备有硬件能力做到这一点。
以新的OnePlus 15为例。这款手机拥有高通全新的骁龙8 Elite Gen 5,其NPU比上一代快37%,无论这意味着什么。即使有所有这些设备端AI能力,OnePlus仍然严重依赖云端来分析你的个人数据。像AI Writer和AI Recorder这样的功能连接到公司服务器进行处理,OnePlus向我们保证这个系统完全安全私密。
同样,摩托罗拉在夏季发布了一系列新的折叠Razr手机,配备了来自多个提供商的AI功能。这些手机可以使用AI总结你的通知,但除非你阅读条款和条件,否则你可能会惊讶于有多少处理发生在云端。如果你购买Razr Ultra,这种总结发生在你的手机上。然而,RAM和NPU功能较少的较便宜型号使用云服务来处理你的通知。同样,摩托罗拉表示这个系统是安全的,但对于较便宜的手机来说,更好的选择是重新优化模型。
实用性不足的本地AI
即使原始设备制造商(OEM)专注于使用NPU硬件,结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该处理你手机上的所有数据并生成有用的建议和操作,但它们除了显示日历事件外很少做任何事情。事实上,谷歌已经暂时从Pixel手机中移除了Daily Hub,因为该功能几乎没有做什么,而谷歌是本地AI的先驱,拥有Gemini Nano。实际上,谷歌最近几个月已经将其移动AI体验的某些部分从本地处理转移到基于云端的处理。
那些"强力"模型似乎正在获胜,而且当用户与他们的私有计算云服务互动时,公司也能获得更多数据,这并没有坏处。
重新思考边缘AI的价值
尽管对本地AI有浓厚兴趣,但到目前为止,这还没有转化为你口袋里的AI革命。迄今为止我们看到的大多数AI进步依赖于云端系统规模的不断扩大和在那里运行的通用模型。行业专家表示,幕后正在进行大量工作,以缩小AI模型使其在手机和笔记本电脑上运行,但这需要时间才能产生影响。
与此同时,本地AI处理以有限的方式存在。谷歌仍然利用Tensor NPU处理像Magic Cue这样的敏感数据功能,而三星真正充分利用了高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到对云端的依赖可能如何影响用户,在系统设置中提供了一个切换选项,限制AI处理仅在设备上运行。这限制了可用的AI功能数量,其他功能也无法正常工作,但你会知道没有任何个人数据被共享。没有其他智能手机提供此选项。
三星发言人Elise Sembach表示,该公司的AI工作重点是增强体验同时保持用户控制。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私性,以及在无网络连接时的可靠性,"Sembach说。
未来展望:平衡发展与用户选择
对边缘AI的兴趣可能是一件好事,即使你不使用它。为这个AI丰富的未来做规划可以鼓励设备制造商投资更好的硬件——比如运行所有理论AI模型的更大内存。
"我们 definitely 建议我们的合作伙伴增加他们的RAM容量,"Sukumar表示。确实,谷歌、三星等人在很大程度上增加了内存容量,以支持设备端AI。即使云端正在获胜,我们也会接受额外的RAM。
随着技术的进步,我们可能会看到更多平衡的解决方案出现,既利用云端强大的计算能力,又尊重用户对隐私和可靠性的需求。三星的本地AI切换是一个积极的信号,表明用户选择的重要性。随着模型压缩技术的改进和硬件能力的提升,我们可能会看到更强大的本地AI功能出现,真正发挥NPU的潜力。
结论
手机NPU性能的不断提升并没有立即带来AI体验的显著改善,这反映了技术发展与应用落地之间的复杂关系。云端AI目前占据主导地位,因为它能够提供更强大的计算能力和更复杂的模型。然而,本地AI在隐私保护、可靠性和响应速度方面具有独特优势。
未来的AI体验很可能是混合的,根据任务需求在云端和边缘设备之间智能分配工作。随着模型压缩技术的进步和硬件能力的提升,我们有望看到更强大的本地AI功能。同时,用户对隐私和数据控制的意识增强,将推动更多设备提供本地处理的选项。
手机NPU的发展并非徒劳无功,它为未来的AI应用奠定了基础。虽然目前大多数AI处理仍在云端进行,但随着技术的成熟和用户需求的演变,边缘AI的重要性将逐渐增加,最终实现真正的智能移动体验。









