手机NPU不断升级,为何AI体验却未同步提升?

0

智能手机中的神经网络处理单元(NPU)性能不断提升,但AI体验却未见显著改善,这背后隐藏着怎样的技术鸿沟?

NPU技术:从DSP到专业AI处理器

现代智能手机的系统级芯片(SoC)集成了多种计算单元,包括CPU核心、GPU和图像控制器等。而NPU作为较新的 additions,其发展历程可以追溯到数字信号处理器(DSP)。

"我们的AI处理之旅始于15或20年前,最初锚点是信号处理,"高通AI产品负责人Vinesh Sukumar表示。DSP与NPU在架构上有相似之处,但NPU针对并行计算、Transformer架构和大规模参数处理进行了更多优化。

联发科助理副总裁Mark Odani解释道:"从广义上讲,NPU确实是数字信号处理器,但它已经走了很长的路,在并行性、Transformer工作原理以及处理大量参数方面进行了更多优化。"

尽管NPU在芯片中日益突出,但它们并非运行边缘AI工作负载的必需品。CPU虽然速度较慢,但可以处理一些轻量级工作负载且功耗较低;GPU则能处理比NPU更多的数据,但功耗更高。在某些场景下,如游戏运行时进行AI处理,使用GPU可能更为合理。

边缘计算的困境

遗憾的是,许多设备中的NPU常常处于闲置状态。本地与云端AI工具的对比明显偏向后者,因为这是大型语言模型(LLM)的自然栖息地。AI模型在强大的服务器上进行训练和微调,在那里运行效果最佳。

以谷歌的Gemini和OpenAI的ChatGPT为例,这些基于服务器的AI资源不像在手机NPU上运行的模型那样受到限制。谷歌最新的设备端Gemini Nano模型上下文窗口为32k tokens,比上一版本提升了一倍多。然而,云端Gemini模型的上下文窗口高达100万tokens,能够处理更大规模的数据。

"云端将始终拥有比移动设备更多的计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack表示。"如果你想要最精确的模型或最强大的模型,这些都必须在云端完成。"

模型压缩的挑战

将AI模型压缩到手机或笔记本电脑中需要一定妥协,例如减少模型中包含的参数。Odani解释说,云端模型运行数千亿参数,这些权重决定了模型如何处理输入tokens以生成输出。目前无法在消费设备上运行如此庞大的模型,因此开发人员必须大幅缩减边缘模型的规模。

Odani表示,联发科最新的第九代NPU可处理约30亿参数——相差几个数量级。手机或笔记本电脑可用的内存量也是一个限制因素,因此移动优化的AI模型通常会被量化,这意味着模型对下一个token的估计以较低精度运行。

"当你压缩到大约3到4GB时,这是集成到像智能手机这样内存受限形态中的最佳平衡点,"Sukumar表示。"高通和整个生态系统已经投入大量资金研究各种压缩模型的方法,同时不损失质量。"

特定场景的局限性

在这些限制下,为移动设备创建通用AI模型很困难,但计算机——尤其是智能手机——是数据丰富之源,可以将这些数据输入模型以生成 supposedly 有用的输出。这就是为什么大多数边缘AI都针对特定、狭窄的用例,如分析屏幕截图或建议日历约会。谷歌表示,其最新的Pixel手机运行了100多个AI模型,包括生成式和传统模型。

即使AI怀疑论者也能迅速认识到格局正在快速变化。在将AI模型缩小并优化用于手机或笔记本电脑的过程中,新的云端模型可能出现,使这项工作过时。这也是为什么第三方开发者一直未能充分利用应用中的NPU处理的原因。他们要么需要连接到现有的设备端模型(涉及限制和快速变化的目标),要么部署自己的自定义模型。目前这两种都不是理想选择。

信任与隐私的考量

如果云端更快更简单,为什么还要费心优化边缘并消耗更多功率运行NPU?依赖云端意味着对运营AI数据中心的人接受一定程度的依赖和信任,这可能并不总是合适的。

"我们始终从用户隐私开始,"高通的Sukumar表示。他解释说,最好的推断并非通用性质——而是基于用户的兴趣和生活中发生的事情进行个性化调整。为提供这种体验而微调模型需要个人数据,而在本地存储和处理这些数据更安全。

即使公司在云服务中说对了关于隐私的话,这些也远非保证。通用聊天助手的友好氛围也鼓励人们分享大量个人信息,如果这个助手在云端运行,您的数据也会在那里。OpenAI与《纽约时报》的版权诉讼可能导致数百万私人聊天记录交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道您的数据将发生什么变化。

"人们正在使用许多生成式AI助手,就像治疗师一样,"Odani说。"你不知道有一天所有这些内容是否会出现在互联网上。"

云端主导的现实

似乎每个人都同意混合方法是提供真正有用AI功能的必要条件(假设这些功能存在),在必要时将数据发送到更强大的云服务——谷歌、苹果和其他所有手机制造商都这样做。但对无缝体验的追求也可能掩盖了您的数据正在发生什么。更常见的是,即使设备有硬件支持,手机上的AI功能也不是以安全、本地方式运行的。

以新的OnePlus 15为例。这款手机配备了高通全新的骁龙8 Elite Gen 5,其NPU比上一代快37%,无论这意味着什么。即使有所有这些设备端AI能力,OnePlus仍然严重依赖云端来分析您的个人数据。AI Writer和AI录音机等功能连接到公司服务器进行处理,OnePlus向我们保证这个系统完全安全私密。

同样,摩托罗拉今年夏天发布了一系列新的Razr折叠屏手机,加载了来自多个提供商的AI功能。这些手机可以使用AI总结您的通知,但除非您阅读条款和条件,否则您可能会惊讶于有多少处理发生在云端。如果您购买Razr Ultra,该总结在您的手机上进行。然而,RAM和NPU功能较少的较便宜型号使用云服务来处理您的通知。同样,摩托罗拉表示这个系统是安全的,但更安全的选择是为这些较便宜的手机重新优化模型。

权衡与选择

尽管本地AI有很多兴趣,但到目前为止,这并未转化为口袋中的AI革命。我们迄今为止看到的大多数AI进步依赖于云系统规模的不断扩大和在那里运行的通用模型。行业专家表示,幕后正在进行大量工作,将AI模型缩小到在手机和笔记本电脑上运行,但这需要时间才能产生影响。

与此同时,本地AI处理以有限方式存在。谷歌仍然利用Tensor NPU处理Magic Cue等功能的敏感数据,而三星则充分利用高通的AI芯片组。虽然Now Brief的实用性值得怀疑,但三星意识到依赖云可能对用户的影响,在系统设置中提供了一个切换选项,将AI处理限制为仅在设备上运行。这限制了可用的AI功能数量,其他功能也无法正常工作,但您将知道没有个人数据被共享。智能手机上没有其他人提供此选项。

三星发言人Elise Sembach表示,该公司的AI工作重点是增强体验同时保持用户控制。"One UI中的设备端处理切换反映了这种方法。它为用户提供了在本地处理AI任务的选择,以获得更快的性能、增强的隐私性,即使在没有网络连接的情况下也能可靠运行。"

未来展望

即使您不使用边缘AI,对它的兴趣也可能是一件好事。为这个AI丰富的未来进行规划可以鼓励设备制造商投资更好的硬件——如更多内存来运行所有那些理论上的AI模型。

"我们 definitely 建议我们的合作伙伴增加他们的RAM容量,"Sukumar表示。确实,谷歌、三星等人在很大程度上增加了内存容量以支持设备端AI。即使云端正在获胜,我们也会接受额外的RAM。

结语

手机NPU技术的进步与AI体验的提升之间存在明显差距。这一现象反映了技术发展、用户需求、隐私保护等多重因素之间的复杂平衡。随着AI模型的不断优化和硬件性能的提升,未来我们可能会看到更多真正意义上的本地AI应用,但在此之前,云端AI仍将在大多数场景中占据主导地位。对于用户而言,理解这一技术现状,做出明智的选择,将是享受AI技术红利的关键。