离线智能崛起：RockAI如何突破端侧AI的算力与功耗瓶颈？

在AI技术飞速发展的今天，我们似乎已经习惯了云端那无所不能的强大算力，以及终端设备上不断涌现的创新应用。然而，当我们真正审视那些承诺永不离线的贴身AI时，却发现它们的核心智能依旧深深依赖于云端。那么，真正的离线智能，究竟何时才能迎来属于它的“DeepSeek时刻”？

曾经，行业内描绘的蓝图是如此美好：轻量化模型的能力不断增强，AI终将摆脱云端的束缚，在每个人的设备上实现永不离线的智能服务。但现实却有些尴尬，无论是近期走红的AI玩具，还是备受瞩目的AI眼镜，其核心交互和智能依然与云端紧密相连。即使是算力更为强大的手机和PC，真正实现离线AI能力的，仍然是凤毛麟角。

null

技术演示中，端侧模型似乎无所不能，但最终，我们期待的离线智能，为何还是离不开网络？

用户对体验的极致追求与端侧设备固有的“物理天花板”之间，存在着深刻的矛盾。用户渴望即时响应、保护隐私数据、在断网情况下也能保持智能服务，但端侧设备有限的算力、功耗和内存，却像一道无形的墙，阻碍着高性能模型的落地。

更深层次的矛盾，则在于商业利益的驱动。对于掌握最强模型的科技巨头而言，云端既是展示技术领导力的舞台，也是利润滚滚而来的源泉。当所有的目光和资源都聚焦于云端时，端侧这个需要投入更多精力、商业回报尚不明朗的领域，自然容易被忽视。

然而，仍有一群少数派，他们真正致力于推动“离线智能”的发展。在今年的世界人工智能大会（WAIC）上，一家名为RockAI的公司展示了他们的答案。他们选择了一条少有人走的路，并找到了破局的关键。

RockAI以“让每台设备都拥有专属智能”为使命，深入研究底层技术，甚至大胆地舍弃了主流的Transformer架构，攻克了端侧部署这块被视为“不可能完成的任务”。早在早期，他们的模型就能完整地运行在算力捉襟见肘的树莓派上。要知道，这块卡片大小的电脑一直是端侧部署的严苛试金石，大多数同类模型在它上面运行几句话就会卡顿。

null

在今年的WAIC上，RockAI推出了Yan 2.0 Preview，仅有30亿参数，却已经能够实现多模态，并在本地实现真正的“记忆”：模型可以动态调整权重，长期保留并更新用户的偏好。

这项“不可能完成的任务”的成果，并未停留在实验室的演示阶段。来自海内外的量产订单纷至沓来，将技术实力迅速转化为商业价值。

RockAI的故事或许能够回答一个根本问题：当云端模型高歌猛进时，我们为什么还需要、以及如何才能实现真正的离线智能？

极客公园采访了RockAI的联合创始人邹佳思，与他们深入探讨了RockAI背后的商业故事。

为什么我们还没有拥有永不下线的随身AI？

问：整个行业似乎都在为离线智能的未来而努力，苹果这样的科技巨头更是将此视为核心战略。但为什么从技术演示到真正走进消费者手中，这“最后一公里”却总是难以打通？

邹佳思： 大家都热衷于讨论离线智能、设备端的AI，但理想与现实之间，横亘着两座几乎无法逾越的大山：算力与功耗。

大模型想要在设备上流畅运行，需要极高的算力配置。目前，许多AI公司虽然也推出了参数相对较小的模型，但仍然需要更高性能的芯片才能顺利运行。

举个例子，我们的一位客户希望在手机上部署离线大模型，但当时行业内其他大模型厂商提出的方案，几乎都要求必须使用高通最新的旗舰芯片以及16G以上的内存。然而，现实情况是，大多数智能设备都无法满足这样的算力需求。

这就是算力鸿沟带来的残酷现实：即使你的AI技术再先进，如果只能在少数顶配设备上应用，那么就失去了普惠AI的意义。

另一座大山，则是功耗。

这个问题在手机上体现得尤为明显。在实际应用中，手机厂商只要尝试部署大模型，设备的发热就会非常严重，这几乎是所有基于传统Transformer架构模型的通病。几乎所有主流手机厂商都曾与我们交流过这个痛点。他们都希望在下一代AI手机上实现突破，但却被功耗这堵墙挡住了去路。

为什么离线智能的“最后一公里”总是走不通？

一个无法回避的事实是，硬件的更新迭代速度相对较慢。许多设备在多年前就已经售出，当时的芯片、存储、麦克风、摄像头等硬件配置都不是为今天的大模型所准备的。将Transformer架构应用到这些中低端算力的设备上，要么根本无法运行，要么勉强运行但效果很差。

即使上游厂商推出了新一代的高端芯片，将其应用到新的产品线中，通常也需要6-12个月的时间；而产品真正实现热销、规模化出货并广泛普及，通常还需要额外1-2年的时间。这种节奏是客观存在的物理现实，无法被跳过。

问：您刚才提到，无论是算力还是功耗，许多问题的根源都指向了目前主流的Transformer架构。Transformer在云端已经证明了自己是当前最强大的AI架构，为什么将其移植到端侧设备上，就会出现“水土不服”的情况呢？

邹佳思： 这个问题确实问到了在设备端运行大模型的挑战核心。Transformer之所以强大，很大程度上依赖于其革命性的注意力（Attention）机制。但问题恰恰也出在这里。

传统的AI模型就像一个流水线工人，处理信息时需要按照顺序逐个进行，记忆力有限，处理到后面的信息时，往往会忘记前面的内容。而Transformer就像一个拥有超能力的总指挥，它不是按顺序处理信息，而是将信息排列成一个方阵，然后要求方阵里的每一个元素都要与其他所有的元素进行“握手”，从而计算彼此之间的关联度。

这种“全局握手”的能力，赋予了Transformer卓越的理解能力。但在云端，你可以拥有无限的算力来支持这种计算。

然而，手机芯片（CPU/NPU）的设计，更像是我们刚才提到的“流水线”，它擅长的是高速、顺序地执行任务。如果你突然让它去完成一个需要“全局握手”的任务——每增加一个元素，计算量就会呈指数级增长——它会立刻变得手足无措。

我们从一开始就关注到了这个问题。目前业界也有一些改进方案，例如Flash Attention、线性注意力等。但我们的结论是，这些方案都只是在“指挥大厅”里进行一些小修小补，并没有从根本上改变“全局握手”这种高耗能的模式。

因此，我们最终选择了一条更为彻底的道路：保留Transformer强大的特征提取能力，但彻底移除那个消耗巨大的Attention机制，转而采用一种全新的、更适合在“流水线”上运行的架构来替代它。同期出现的Mamba架构也看到了类似的方向。我们不是去修补一辆不适合在崎岖小路上行驶的F1赛车，而是重新设计一辆能够在小路上飞驰的越野车。

null

问：这听起来非常复杂。仅仅为了在智能硬件上运行，就要重新设计一个架构。离线智能真的有这么必要吗？

邹佳思： 这个问题很有意思。我们认为离线智能非常有必要，并且我们也确实看到了强烈的市场需求。

它的必要性体现在几个无法被云端替代的价值上：

首先，是绝对的隐私安全。这是像苹果这样的公司投入端侧AI研发的核心初衷。最敏感的数据，例如你的相册、健康信息、聊天记录等，根本就不应该离开你的设备。这是一个原则性问题。

其次，是极致的实时交互。许多应用场景对延迟的要求非常苛刻，需要达到毫秒级。例如，部署了Yan架构的无人机，用户发出“在我跳起来的时候抓拍”的指令，模型就必须瞬间响应。在这种场景下，任何一次网络波动都可能是致命的，你不可能依赖云端。再比如未来的机器人，它需要根据自己独特的臂长、传感器参数来做出精准的动作，这种与硬件高度绑定的实时控制，必须由本地的“大脑”来完成。

第三，是成本问题。云端API的价格看似在不断下降，甚至有些是免费的，但仍然存在成本。以摄像头为例，其出货量是以亿为单位的。在这种海量规模下，即使云端服务再便宜，乘以亿也是一笔天文数字。而走向离线智能，硬件成本是已经投入的，后续的使用几乎不产生额外的费用。从商业逻辑上讲，对于海量设备而言，本地部署一定是成本最优解。

本地模型就像一个守在你家门口的聪明管家，它能够保护你的隐私和安全，并且能够个性化地理解你。即使它不一定能够解决所有最复杂的问题，但它应该能够处理掉80%的日常琐事——例如打开应用、设置提醒、简单翻译、会议纪要等等，并且能够做得又快又安全。对于绝大多数用户来说，并不是每时每刻都需要处理复杂的任务。

云端模型能够满足用户比较高的需求，但是设备端的模型能够更快、更安全、更便宜地满足用户的大部分需求。

能实现离线智能的模型，应该是什么样的？

问：刚刚提到，为了实现离线智能，你们选择了最艰难的道路——重新设计一辆“越野车”。那么，这辆新车的“发动机”，也就是你们新架构的核心机制，究竟是什么？

邹佳思： 我们的核心创新，就是抛弃了前面提到的Transformer那种需要“全局握手”、高耗能的Attention机制，回归到更轻量级的“特征—抑制—激活”架构，再配合分区激活技术，将每次真正运算的参数量压缩到十分之一甚至更低。这样一来，算力需求能够降到原来的五分之一以上，功耗也能降到十分之一。

前面提到过，在标准的Transformer架构中，无论任务多么简单，所有参数都必须全部被激活，才能获得一个高智能的答案。但是，人脑的运行方式并非如此。

人脑拥有大约800-900亿个神经元，我们可以将其理解为一个拥有800-900亿参数的模型。如果人脑是全量激活的，那么功耗可能会达到3000瓦甚至4000瓦，但实际上，人脑的实际功耗只有不到30瓦。

人脑是如何神奇地做到这一点的呢？答案就是分区激活。我们的模型正是借鉴了这种方式。

除了降低功耗之外，新的架构还让我们能够在参数量仅为3B的模型中，实现多模态。

为了方便理解，我们可以做一个不太严谨的比喻：当你看到一只鸟，听到它的叫声，同时又在阅读“鸟”这个字时，你的大脑并不是整个被点亮。而是在视觉区、听觉区、语言区这些不同的分区里，激活了特定的、小范围的神经元。正是这些分区既独立又相互重叠的激活，帮助我们高效地将形态、声音和词汇完美地对齐。

参数量在30亿以下的Transformer模型，由于其全局计算的特性，很难高效地处理和对齐来自不同来源的模态信息。而我们的类脑激活机制本身就更接近大脑的分区处理模式，不同的模态输入可以天然地激活不同的分区，使得对齐变得更加轻松、更加精准。因此，即使在3B的规模下，我们依然能够保留强大的文本、语音、视觉联合理解能力。

null

问： “分区激活”的思路确实非常巧妙。但人脑之所以能够只激活一小部分神经元，是因为它本身就是一个拥有近千亿参数的巨型模型，底子足够厚。而我们现在的端侧模型，本身就只有区区几十亿参数，已经是在“螺蛳壳里做道场”了。我们真的能够指望一个小模型，通过激活更小的一部分，来完成更好的智能吗？

邹佳思： 您提出的这个问题，正好触及了当前大模型发展范式的核心——我们称之为压缩智能的困境。

现在的预训练大模型，本质上是一个压缩智能的过程——就像一块巨大的海绵，它的训练过程，就是将海量的互联网数据（水）压缩到这个由几千亿参数构成的容器里。参数量越大，海绵越大，能够吸收和储存的知识自然就越多。

但这种范式在处理多模态信息时，会存在一些问题。有过文件压缩经验的人都知道，1GB的文字打包压缩后，通常比1GB的视频或图像文件更小。视频图像这类文件本身就很大，而压缩比又相对较低。这就是为什么市面上小参数的Transformer模型，很难加入多模态能力的原因。

因此，如果游戏规则仅仅是比谁的海绵更大、谁背的书更厚，那么小参数的模型确实没有未来。

但我们认为，真正的智能，不应该仅仅是压缩，更应该是成长和学习。这正是我们路线的根本不同：我们不是在一条道路上走到黑，而是压缩智能+自主学习双线并行。

我们前面提到的分区激活，它的意义不仅在于节能，更在于它为成长提供了可能性。

我们现在的模型只有30亿参数。但通过神经网络精细的动态分区，例如分成100个区，那么一次只需要激活3000万个参数。这意味着，我们未来完全可以在手机内存允许的范围内，将端侧模型的总参数也做得很大，例如做到百亿甚至更多，但通过只激活其中极小的一部分，来保持同样低的功耗。

这就颠覆了游戏规则。我们不再是研究如何将大模型变小，而是研究如何让模型在端侧从小长到大。

因此，当别人都在压缩这条道路上内卷时，我们通过MCSD架构、分区激活、记忆神经单元等技术，为端侧模型找到了第二条、也是我们认为更符合生命本质的成长路线——可持续的、低成本的自主学习。我们不只是在构建一个能够在设备端跑起来的模型，我们是在为端侧AI的未来，构建一个全新的、能够不断成长的大脑底座。

问：您提到了自主学习这个词，应该如何理解Yan模型的自主学习？它和现在云端模型的个性化有什么不同吗？

邹佳思： 自主学习，正是我们这次在WAIC上想要展示的最令人兴奋的技术突破之一。

目前我们接触到的云端大模型，都需要通过预训练才能更新自己的智能。因为一个模型真正学习的过程——理解用户的反馈，并将其体现在自己的神经网络变化中，依赖于前向传播（推理/猜测）和反向传播（学习/修正）的过程。而反向传播本身是一个特别耗能的过程。在云端，一个千亿参数的模型进行一次反向传播，需要动用一个庞大的、由上千张GPU组成的训练集群。

因此，所有基于Transformer架构的模型，一旦被部署到你的手机上，就成了只读存储器——它只有前向传播的能力，失去了学习和更新的可能性。我们接触到的所谓的个性化，都只是模型通过对话，记住了你的一些偏好，形成了一个外挂知识库，这并不是从根本上学习了你的偏好。因此，有时候即使你和模型强调了很多遍你的偏好，模型还是会有自己想偏好的输出。

而我们的创新，恰恰是在这个最根本的物理限制上，实现了一个看似不可能的突破：它让反向传播这个学习过程，第一次有可能在端侧设备上发生。

得益于分区激活的特性，当模型需要学习新知识时——例如记住你“喝咖啡不加糖”这个偏好——它不需要去撼动整个几十亿参数的神经网络。我们的架构能够做到：锁定与这个新知识直接相关的、那个被激活的、极小的神经元分区。在这个被隔离的微型战场里，执行一次低功耗的反向传播，只更新这个分区内极少数的权重参数。将这个学到的新知识，直接、永久地写入模型本体的神经网络中。

通往个性化记忆和自主学习的大门就这样被打开了。

现在，我们的模型可以一边使用（推理），一边学习（训练），将新学到的东西，例如你的新习惯、新偏好，直接写入模型本体。它让模型拥有了真正的自主进化能力。

null

离线智能什么时候能够应用在AI玩具上？

问：我们刚才聊了很多技术上的不可能与可能。现在让我们回到市场层面。当大部分声音还在追逐云端千亿参数模型时，你们的技术却在短时间内找到了真实的商业订单。这让我们非常好奇，从你们的角度来看，当前市场上究竟是哪一类玩家，对离线智能抱有最强烈的执念？他们背后的商业驱动力是什么？

邹佳思： 目前，我们接触了多个领域的客户，而每个领域客户对于离线智能的执念背后，都有着深刻的商业逻辑。

PC、平板和机器人是我们当前最核心、已实现量产的战场。我们会更关注更广阔的中低算力市场。

以我们和某头部出海厂商的合作为例。他们的核心诉求，并不仅仅是为未来的旗舰机型打造AI功能，更是要盘活手中数以亿计的、已经售出或正在销售的中低端设备。

为什么硬件厂商如此在乎这些旧设备？这背后有两条生命线：

第一条，是针对已经销售到用户手中的设备。通过OTA（空中升级）的方式，为这些旧设备推送我们的AI模型，可以创造全新的软件预装和增值服务收入。更重要的是，这极大地提升了品牌价值——“我几年前买的电脑，现在居然也能升级成AI PC了！”这种口碑是用钱也买不来的。

第二条，是针对当下仍在出货的、非旗舰机型。任何一个品牌都不可能只靠售价上万的顶配AI PC生存，真正的销量和利润，来自于广大的中低端市场。但这些设备，因为芯片算力限制，根本无法运行主流的Transformer模型，但厂商并不愿意因此看着自己的产品与AI绝缘。

而我们的技术，恰恰是填补这个巨大空窗期的解决方案。我们的模型可以直接在这些非旗舰的存量设备上流畅运行，让厂商下个月就能将AI PC销售到用户手中，而不是苦等三年。

除了PC和平板之外，我们也关注机器人和手机领域。我们与无人机公司也有一定的合作。

AI眼镜和AI玩具这些炙手可热的领域呢？

邹佳思： AI眼镜和AI玩具几乎是所有媒体和投资人见到我们时必问的问题。它们代表了设备端AI最性感的想象力，但也暴露了最骨感的现实。

它们的根源问题，其实是同一个：为了极致的成本控制和轻便性，这些设备里的芯片，从设计之初就不是为了运行AI的。

以AI眼镜为例，现在市面上的主流方案，用的要么是高通的AR专用芯片，要么是恒玄等厂商的芯片。这些芯片本质上是通信芯片，它们的任务是做好蓝牙连接、信息投屏、简单翻译等，算力被严格限制。

结果就是，我们的模型想要在大部分眼镜上运行，都跑不起来，算力、内存完全不达标。连我们都跑不起来，就更别提那些动辄几十亿参数的Transformer模型了，那更是天方夜谭。AI玩具也面临着完全一样的困境。

市场对体验有极高的幻想，但硬件的物理现实却极其残酷。

面对这个死结，我们目前看到了两条清晰的路径，我们也在同时推进：

第一条路，是“曲线救国”，也是当下最务实的方案。既然眼镜本身的算力不够，那就借用手机端的算力。这个方案，我们正在和一些头部的眼镜厂商进行深入的洽谈。

另一条路，是更激进、更面向未来的“釜底抽薪”。我们和一些像影目科技（INMO）这样有魄力的伙伴，正在尝试一个大胆的想法：在下一代的眼镜上，直接更换一颗更强大的“大脑”芯片。

这当然会带来巨大的功耗和工业设计挑战。但对他们来说，一旦成功，就意味着拥有了一款独一无二的、能真正实现离线智能的眼镜。想象一下，你戴着它去海外旅游，在没有任何网络的环境下，它能够实现即时的、高质量的离线翻译，这种体验是“炸裂”的，是绝对的差异化优势。

因此，对于眼镜和玩具这两个市场，我们既有务实的“当下解法”，也有着眼于未来的“终极方案”。我们非常有耐心，因为我们相信，真正的爆发，需要等待技术和硬件的完美共振。

现在国内的AI硬件赛道极其火热，但都以使用云端AI为主。但我观察到你们的客户，实际上是销往海外的。在离线智能这件事上，海内外的市场温度是否并不一致？

邹佳思： 您观察到的这个“温度差”，正是我们现阶段战略布局的核心。销往海外市场的智能硬件，其实为我们提供了一片更广阔的蓝海。这种“炽热”的需求，主要源于三个国内不太敏感的“痛点”：

首先，是根植于文化的“隐私执念”。在欧美市场，用户对于个人数据隐私的重视程度，是写进法律、深入人心的。我们目前也在和一家头部玩具IP公司谈合作，他们之所以对我们的方案产生浓厚兴趣，一个核心前提就是：他们不希望用户的隐私上云。他们的内容IP和用户数据是最高级别的资产，必须在设备端处理。

其次，是客观存在的“网络鸿沟”。我们很容易被国内一线城市无处不在的5G网络所“蒙蔽”，认为网络无所不能。但放眼全球，对于我们的出海伙伴来说，他们的用户可能在非洲的原野，也可能在东南亚的岛屿，这些地方的网络环境，让依赖云端的AI体验变得极不可靠。一个能够在弱网、无网环境下稳定运行的离线模型，是他们的“救命稻草”。

第三，是更高的人力成本催生的“效率需求”。在海外，很多场景下用机器替代人力的意愿更强。当他们需要一个可靠的、无需联网的7x24小时接待员或多语言导游时，离线智能的商业价值会比国内市场体现得更直接、更迫切。

因此，我们的战略非常清晰，我们称之为“借船出海”。我们通过赋能那些本身就非常优秀的中国出海企业，将我们的技术带给全球那些对离线智能有着最真实、最强烈需求的C端用户。

您的分享描绘了一个非常激动人心的前景，但也无法回避一个尖锐的现实：一方面，端侧模型是各家智能硬件厂商都在关注的重点，国内外手机巨头们都在投入重兵自研，试图把AI的命脉掌握在自己手里；另一方面，硬件的摩尔定律也在飞速前进，两三年后，当手机芯片强大到能够轻松运行更大的模型时，你们今天“小而美”的优势，是否还存在？面对这样的未来，RockAI最深的护城河，究竟是什么？

邹佳思： 您这个问题非常尖锐，它恰好点出了我们每天都在思考的两个核心挑战。

首先，关于硬件变强。我们认为这是一个对我们有利的趋势。第一，任何高端硬件的普及，都至少需要两到三年的窗口期，在这个窗口期内，我们是解决海量存量和中端设备AI化问题的最优解。第二，当硬件底座变强，它能够容纳的不仅仅是更大的Transformer，也能容纳我们从小长到大的Yan架构大模型。我们同样可以做10B甚至更大的模型，而我们独特的自主学习、低功耗特性等优势，依然会存在。

另一个问题，可能更触及我们这家公司的灵魂，回答了我们真正的护城河是什么。

我们的团队基因，其实源于一个始于2015年的、未完成的梦想。那时候，我们几个创始人就想做真正的智能硬件，当时的形态类似于小爱同学，但当时就因为AI技术不成熟而失败了。直到我们看到了Transformer的潜力，觉得时机到了，才再次聚到一起创业。

再后来，我们就痛苦地发现，将Transformer这台“云端猛兽”硬塞进小小的设备里，这条路，在工程上根本走不通。

那时，摆在我们面前的有两条路：一条是跟着行业主流，给Transformer打补丁，做各种优化，这条路更容易、也更容易被投资人看懂。另一条，是走一条更难、更孤独的路，承认此路不通，从零开始，去构建一个全新的、为端侧而生的架构。

我们选择了后者。而支撑我们走下来的，不是我们有多少钱，有多少卡，或者团队背景有多光鲜。我们内部总结，可能就是一个很“玄学”的词：坚持。

我们笃信，模型一定要跑到端上去，设备一定要有自己的智能。正是因为这份执念，我们才愿意去坐那两年多的冷板凳，在别人追逐云端风口时，我们像一个实验派的炼丹师，在实验室里反复尝试、验证，最终才炼出了Yan架构大模型这颗丹。

因此，我们的护城河，不是某一两个技术点，因为聪明的人和团队太多了。我们的护城河，是我们因为坚持而趟过的那些坑、积累的认知，以及我们从第一天起就与众不同的、为端侧智能而生的创新基因。