近年来,几乎所有技术创新都聚焦于生成式AI。许多革命性系统运行在数据中心的强大服务器上,与此同时,芯片制造商却大力宣传其消费设备中神经处理单元(NPU)的强大能力。每过几个月,就会宣布新一代NPU比前代快30%或40%,但这些升级究竟带来了什么实际应用,却很少有人能说清楚。
NPU的技术演进与定位
许多公司在推出新产品时,往往陷入超级形容词和模糊营销语言的泥沼,未能清晰解释技术细节。对于大多数购买手机的人来说,他们不清楚为什么需要专门硬件来运行AI工作负载,而所谓的优势大多是理论上的。
如今许多旗舰消费处理器都是片上系统(SoC),因为在单一硅片上集成了多个计算元素,如CPU核心、GPU和图像控制器。这适用于高通的骁龙或谷歌的Tensor等移动部件,也适用于英特尔酷睿Ultra等PC组件。
NPU是芯片中的新成员,但并非凭空出现——其发展历程有着清晰的脉络。NPU之所以擅长其工作,是因为它们强调并行计算,这也是其他SoC组件的重要特点。
"我们的AI处理之旅大约始于15-20年前,最初的锚点是信号处理,"高通AI产品负责人Vinesh Sukumar表示。数字信号处理器(DSP)与NPU具有相似架构,但更简单,专注于处理音频(如语音识别)和调制解调器信号。
随着被称为"人工智能"的技术集合的发展,工程师开始将DSP用于更多类型的并行处理,如长短期记忆(LSTM)。Sukumar解释说,当行业开始热衷于卷积神经网络(CNN)——计算机视觉应用的基础技术时,DSP开始专注于矩阵函数,这对生成式AI处理也至关重要。
尽管存在架构上的传承,但简单地将NPU视为花哨的DSP并不准确。"如果你从广义上谈论DSP,是的,[NPU]是一种数字信号处理器,"联发科助理副总裁Mark Odani表示,"但它已经走过了很长的路,并且在并行性、transformer工作方式以及处理大量参数方面进行了更多优化。"
尽管NPU在新芯片中如此突出,但对于在"边缘"运行AI工作负载来说并非绝对必要。CPU比NPU慢,但可以在不使用太多电力的处理一些轻量级工作负载。同时,GPU通常可以比NPU处理更多数据,但消耗更多电力。Sukumar表示,在某些情况下,您可能希望这样做。例如,运行游戏时同时运行AI工作负载可能更适合GPU。
边缘计算的挑战
不幸的是,许多设备中的NPU处于闲置状态(游戏期间也不例外)。本地与云AI工具的组合倾向于后者,因为那是大型语言模型(LLM)的自然栖息地。AI模型在强大的服务器上训练和微调,也是它们运行的最佳场所。
基于服务器的AI,如Gemini和ChatGPT的完整版本,不像在手机NPU上运行的模型那样受资源限制。考虑谷歌最新的设备端Gemini Nano模型,其上下文窗口为32k个token,比上一版本提高了2倍以上。然而,基于云的Gemini模型的上下文窗口高达100万个token,意味着它们可以处理更大体积的数据。
基于云和边缘AI硬件都将持续改进,但平衡可能不会向NPU倾斜。"云将始终比移动设备拥有更多计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack表示。
"如果你想要最准确的模型或最强大的模型,所有这些都必须在云中完成,"Odani说,"但我们发现,在许多用例中,比如总结一些文本或与语音助手对话,许多这些功能可以容纳在30亿个参数内。"
将AI模型压缩到手机或笔记本电脑涉及一些妥协,例如减少模型中包含的参数。Odani解释说,基于云的模型运行数千亿个参数,这些权重决定了模型如何处理输入token以生成输出。目前无法在消费设备上运行类似规模的模型,因此开发人员必须大幅缩减边缘模型的大小。Odani表示,联发科最新的第九代NPU可以处理约30亿个参数——相差几个数量级。
手机或笔记本电脑中可用的内存量也是一个限制因素,因此移动优化的AI模型通常会被量化。这意味着模型对下一个token的估计运行精度较低。假设您想在设备上运行一个较大的开放模型,如Llama或Gemma 7b。事实上的标准是FP16,即半精度。在该级别,拥有70亿个参数的模型将占用13或14GB内存。降至FP4(四分之一精度)可将模型在内存中的大小减少到几GB。
"当我们压缩到大约3-4GB时,这是整合到智能手机等内存受限形态因素中的最佳平衡点,"Sukumar表示,"在生态系统和高通方面,我们已经投入大量资金研究各种压缩模型的方法而不损失质量。"
在这些限制下为移动设备创建通用AI很困难,但计算机——尤其是智能手机——是数据的丰富来源,可以泵入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI针对特定、狭隘的用例,如分析屏幕截图或建议日历约会。谷歌表示,其最新的Pixel手机运行了100多个AI模型,包括生成式和传统AI。
信任问题
如果云计算更快更简单,为什么还要费力优化边缘计算并使用NPU消耗更多电力?依赖云计算意味着接受对AI数据中心运营商的一定程度依赖和信任,这可能并不总是合适的。
"我们始终以用户隐私为出发点,"高通的Sukumar表示。他解释说,最好的推理并非一般性质——它基于用户的兴趣和他们生活中发生的事情进行个性化调整。为提供这种体验而微调模型需要个人数据,而本地存储和处理这些数据更安全。
即使公司在云服务中说对了关于隐私的话,也远非保证。通用聊天机器人友好、有帮助的氛围也鼓励人们分享大量个人信息,如果这个助手在云端运行,您的数据也在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录被交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道您的数据将发生什么。
"人们正在使用许多这些生成式AI助手,就像使用治疗师一样,"Odani说,"你不知道有一天所有这些内容是否会出现在互联网上。"
并非所有人都如此担忧。Zack声称谷歌已经建立了"世界上最安全的云基础设施",使其能够在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio为例说明这种方法,指出谷歌的云是使这些体验快速和高质量的唯一方式。该公司最近宣布了其新的Private AI Compute系统,声称其安全性与本地AI相当。
即使这是真的,边缘计算还有其他优势——边缘AI比云服务更可靠。"设备端处理速度快,"Odani说,"有时我与ChatGPT交谈时,Wi-Fi断开或其他问题,它就会卡顿一下。"
托管基于云的AI模型的服务不仅仅是单个网站——今天的互联网高度相互依赖,内容分发网络、DNS提供商、托管和其他服务在出现故障时可能会降级或关闭您最喜欢的AI。当Cloudflare最近遭受自我造成的停机时,ChatGPT用户恼怒地发现他们可靠的聊天机器人不可用。本地AI功能没有这个缺点。
云端主导的现状
似乎每个人都同意,提供真正有用的AI功能(假设这些功能存在)需要采用混合方法,在必要时将数据发送到更强大的云服务——谷歌、苹果和其他所有手机制造商都在这样做。但对无缝体验的追求也可能掩盖了您的数据正在发生什么。更常见的是,您手机上的AI功能并非以安全、本地方式运行,即使设备有硬件能力做到这一点。
以新的OnePlus 15为例。这款手机拥有高通全新的骁龙8 Elite Gen 5,其NPU比前一代快37%,无论这意味着什么。即使拥有所有这些设备端AI能力,OnePlus仍然严重依赖云端来分析您的个人数据。AI Writer和AI Recorder等功能连接到公司服务器进行处理,OnePlus向我们保证这个系统完全安全和私密。
同样,摩托罗拉今年夏天发布了一系列新的折叠Razr手机,加载了来自多个提供商的AI功能。这些手机可以使用AI总结您的通知,但除非您阅读条款和条件,否则您可能会惊讶于其中有多少发生在云端。如果您购买Razr Ultra,总结会在您的手机上进行。然而,内存和NPU功能较少的较便宜型号使用云服务来处理您的通知。同样,摩托罗拉表示这个系统是安全的,但更安全的选择是为这些便宜手机重新优化模型。
即使原始设备制造商(OEM)专注于使用NPU硬件,结果也可能不尽如人意。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该处理您手机上的所有数据并生成有用的建议和操作,但除了显示日历事件外,它们很少做任何事情。事实上,谷歌已经暂时从Pixel中移除了Daily Hub,因为该功能作用甚微,而谷歌是本地AI的先驱,拥有Gemini Nano。实际上,谷歌最近几个月已经将其移动AI体验的某些部分从本地处理移到了基于云的处理。
那些"暴力"模型似乎正在获胜,而且当您与他们的私有计算云服务交互时,公司也能获得更多数据,这并没有坏处。
现实与妥协
虽然本地AI有很多兴趣点,但到目前为止,这还没有转化为您口袋里的AI革命。我们迄今为止看到的大多数AI进步依赖于云系统规模的不断扩大和在那里运行的通用模型。行业专家表示,幕后正在进行大量工作,以缩小AI模型使其在手机和笔记本电脑上运行,但这需要时间才能产生影响。
与此同时,本地AI处理以有限方式存在。谷歌仍然利用Tensor NPU处理敏感数据,如Magic Cue功能,而三星真正充分利用了高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到依赖云可能如何影响用户,在系统设置中提供了一个切换选项,限制AI处理仅在设备上运行。这限制了可用的AI功能数量,其他功能也无法正常工作,但您知道没有任何个人数据被共享。没有其他智能手机提供此选项。
三星发言人Elise Sembach表示,该公司的AI工作立足于增强体验同时保持用户控制权。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私和即使在没有网络连接时的可靠性,"Sembach说。
即使您不使用边缘AI,对它的兴趣可能也是一件好事。为这个AI丰富的未来做规划可以鼓励设备制造商投资更好的硬件——如更多内存来运行所有那些理论上的AI模型。
"我们确实建议我们的合作伙伴增加他们的内存容量,"Sukumar表示。确实,谷歌、三星等公司增加内存容量,很大程度上是为了支持设备端AI。即使云计算正在获胜,我们也会接受额外的内存。
结论
尽管手机NPU性能不断提升,但真正的AI革命仍未在移动设备上实现。当前AI应用主要依赖于云端处理,而设备端NPU大多处于闲置状态或仅处理轻量级任务。这一现象反映了AI模型规模与移动设备硬件能力之间的巨大差距。然而,边缘AI的重要性不容忽视,它在隐私保护、可靠性和离线功能方面具有独特优势。
随着模型压缩技术的进步和硬件能力的提升,未来我们可能会看到更多有意义的本地AI应用。但短期内,混合AI策略——结合云端处理能力和设备端隐私保护——可能是最现实的解决方案。对于用户而言,了解AI功能如何处理他们的数据,并像三星那样提供选择权,将是确保技术发展与个人需求平衡的关键。


