离线智能的破局之路：RockAI的DeepSeek时刻何时到来？

在人工智能领域，人们的目光往往聚焦于云端那无所不能的模型和终端设备上所蕴含的无限潜力。一个曾经被广泛憧憬的行业愿景是：随着轻量化模型能力的不断增强，人工智能将摆脱云端的束缚，在每个人的设备上实现永不离线的智能化体验，而这似乎只是时间上的问题。然而，在经过一番热闹的景象之后，一个略显尴尬的现实也随之浮出水面：无论是近期走红的人工智能玩具，还是备受瞩目的AI眼镜，其核心的交互和智能仍然与云端紧密相连。即使是那些算力更强的手机和个人电脑，真正实现离线AI能力的，仍然是凤毛麟角。

在各种技术演示中，终端侧的模型看起来似乎无所不能。然而，曾经承诺的离线智能，为何最终还是无法摆脱对网络的依赖？用户对于体验的极致追求与终端设备所面临的“物理天花板”之间存在着深刻的矛盾。用户既希望获得即时响应，不愿等待；又希望保护隐私数据，避免上传；还希望在断网情况下依然能够保持智能互联。而另一方面，终端设备永远无法回避算力、功耗和内存等方面的限制，这些限制就像一道无形的墙，将绝大多数高性能模型拒之门外。

更深层次的矛盾则在于商业利益的驱动。对于那些掌握着最强大模型的科技巨头而言，云端既是展示技术领导力的舞台，更是利润滚滚而来的收费站。当所有的目光和资源都集中于云端时，终端侧的研发自然就被置于一个相对被忽视的角落。那么，那些真正致力于推动“离线智能”发展的少数派，他们究竟在做些什么？在今年的世界人工智能大会（WAIC）上，一家名为RockAI的公司展示了他们的答案。他们正走在一条鲜有人走过的道路上，并且找到了一把能够突破困局的钥匙。

null

RockAI的使命是“让每台设备都拥有专属智能”。为了实现这个目标，他们的团队深入研究底层技术，甚至大胆地放弃了主流的Transformer架构，攻克了终端侧部署这一被视为“不可能完成的任务”。在早期，他们的模型就能够在算力捉襟见肘的树莓派上完整运行。要知道，这块卡片大小的电脑一直是端侧部署的严苛测试平台，大多数同类模型在它上面运行几句话就会卡顿。而在今年WAIC上推出的Yan 2.0 Preview，仅有30亿参数，却已经能够实现多模态，并且在本地实现真正的“记忆”：模型可以动态调整权重，长期保留并更新用户的偏好。

这项“不可能完成的任务”的成果，也并没有仅仅停留在实验室的演示阶段。来自海内外市场的量产订单已经纷至沓来，将技术实力迅速转化为商业价值。他们的故事或许能够回答一个根本性的问题：当云端模型高歌猛进之时，我们为什么还需要，以及如何才能实现真正的离线智能？

为了更深入地了解RockAI背后的商业故事，我们采访了RockAI的联合创始人邹佳思。

为什么我们还没有拥有永不下线的随身AI？

问：整个行业似乎都在为一个离线智能的未来而努力，像苹果这样的科技巨头更是将此视为核心战略。但为什么从技术演示到最终到达消费者手中，这“最后一公里”却总是难以逾越？

邹佳思：大家都在谈论离线智能和设备端的AI，但理想与现实之间，横亘着两座几乎无法逾越的大山：算力和功耗。

如果想让大模型在设备上运行，就需要非常高的算力配置。目前行业内的许多AI公司，虽然也有参数相对较小的模型，但仍然需要算力更高的芯片才能运行。例如，我们有一个客户希望在手机上配置离线的大模型，但当时行业里其他大模型厂商提出的方案，几乎都要求必须使用高通最新的旗舰芯片以及16GB以上的内存。但现实情况是，大多数智能设备都无法具备这样的算力。

这就是最残酷的算力鸿沟：如果你的AI技术再先进，但只能满足少数顶配设备的应用需求，那么就失去了普惠AI的意义。另一座大山就是功耗。这个问题在手机上体现得尤为明显。在现实中，手机厂商只要尝试部署大模型，设备的发热就会非常严重，这几乎是所有基于传统Transformer架构模型的通病。几乎所有主流手机厂商都和我们交流过这个痛点。他们都希望在下一代AI手机上实现突破，但都被这堵功耗之墙挡住了去路。

为什么“最后一公里”总是难以逾越？事实上，硬件更新的节奏在客观上是很慢的。很多设备多年前就已经售出，当时的芯片、存储、麦克风、摄像头都不是为今天的大模型所准备的。把Transformer部署在这些中低端算力的设备上，要么无法运行，要么勉强运行但效果很差。

即便上游厂商推出新一代的高端芯片，将其应用到新产品线通常也需要6到12个月的时间；而产品真正畅销、规模化出货并广泛普及，通常还需要额外1到2年的时间。这种节奏是客观存在的物理现实，无法被跳过。

问：您刚才提到，无论是算力还是功耗，很多问题的根源都指向了目前主流的Transformer架构。Transformer在云端证明了自己是当前最强的AI架构，为什么将其搬到终端侧设备上，就会出现“水土不服”的情况？

邹佳思：这个问题确实问到了在设备端运行大挑战的核心。Transformer之所以强大，依赖于其革命性的注意力（Attention）机制。但问题也恰恰出在这里。传统的AI模型就像一个流水线上的工人，它处理信息的方式是按照顺序一个一个地进行，记忆力有限，处理到后面就忘了前面。而Transformer就像一个拥有超能力的总指挥，它不是按顺序处理信息，而是让信息排成一个方阵，然后要求方阵里的每一个字，都要和其他所有的字握手一次，来计算彼此之间的关联度。这种“全局握手”的能力，让Transformer拥有了超凡的理解能力。但在云端，你有无限的算力去支持这种计算。

但手机芯片（CPU/NPU）的设计，更像是刚才所说的“流水线”，它擅长的是高速、顺序地执行任务。如果突然让它去完成一个需要“全局握手”的任务——每增加一个字，计算量就会呈指数级增长——它瞬间就会不知所措。我们从一开始就关注到了这个问题。业界目前也有一些改进方案，比如Flash Attention、线性注意力等。但我们的结论是，这些都只是在“指挥大厅”里做一些小修小补，没有从根本上改变“全局握手”这种高耗能的模式。我们最终选择了一条更彻底的道路：保留Transformer强大的特征提取能力，但彻底拿掉那个消耗巨大的Attention机制，用一种全新的、更适合在“流水线”上运行的架构来替代它。国外同期的Mamba架构也看到了类似的方向。我们不是去修补一辆不适合在小路上行驶的F1赛车，而是重新设计一辆能够在小路上飞驰的越野车。

null

问：这听起来非常复杂。仅仅为了在智能硬件上运行，就要重新设计一个架构。离线智能真的有这么必要吗？

邹佳思：这个问题很有趣。我们认为非常有必要，而且我们也确实看到了很强的市场需求。它的必要性体现在几个无法被云端替代的价值上：

绝对的隐私安全。 这是像苹果这样的公司投入端侧最核心的初衷。最敏感的数据，比如你的相册、健康信息、聊天记录，根本就不应该离开你的设备。这是一个原则问题。
极致的实时交互。 很多场景对延迟的要求是毫秒级的。比如部署了Yan架构的无人机，用户喊一声“在我跳起来的时候抓拍”，模型就必须瞬间响应。在这种场景下，任何一次网络波动都可能是致命的，你不可能依赖云端。再比如未来的机器人，它需要根据自己独特的臂长、传感器参数来做出精准的动作，这种与硬件高度绑定的实时控制，必须由本地的“大脑”来完成。
成本问题。 云端API的价格看起来在不断下降，甚至免费，但仍然是有成本的。以摄像头为例，出货量是以亿为单位。在这种海量规模下，云端再便宜，乘以亿，也是一笔天文数字。而走向离线智能，硬件成本是已经付出的，后续的使用几乎不产生额外费用。从商业逻辑上讲，海量设备，本地部署一定是成本最优解。

本地模型就像一个守在门口的聪明管家，它隐私、安全，并且能够个性化地理解你。即使它不一定能解决所有最复杂的问题，但它应该能够处理掉80%的日常琐事——比如打开应用、设置提醒、简单翻译、会议纪要等等，并且做得又快又安全。对于绝大多数用户来说，不是每时每刻都需要处理复杂任务。云端模型能够满足用户比较高的需求，但是设备端的模型能够更快、更安全、更便宜地满足用户的大部分需求。

能实现离线智能的模型，应该长什么样？

问：刚刚提到，为了实现离线智能，你们选择了最难的道路——重新设计一辆“越野车”。那么，这辆新车的“发动机”，也就是你们新架构的核心机制，究竟是什么？

邹佳思：我们的核心创新，就是抛弃了前面提到的Transformer那种需要“全局握手”的、高耗能的Attention机制，回退到更轻的“特征—抑制—激活”架构，再配合分区激活，把每次真正运算的参数量压到十分之一甚至更低。算力需求降到原来的五分之一以上，功耗降到十分之一。前面说过，标准Transformer架构中，无论任务多小，所有参数都必须全部被激活，才能获得一个高智能的答案。但是人脑其实不是这么运行的。人脑其实也有800-900亿的神经元，我们可以理解为，它是一个800-900亿参数的模型。如果人脑是全量激活，功耗可能会达到3000瓦甚至4000瓦，但是人脑实际的功耗只有不到30瓦。人脑是怎么神奇地做到这一点的呢？就是靠分区激活。我们的模型就是借鉴了这种方式。除了功耗降低，新的架构还让我们能够在3B的模型中，实现多模态。

用一个不太严谨的比喻来说，当你看到一只鸟，听到它的叫声，同时又在阅读“鸟”这个字时，你的大脑并不是整个被点亮。它是在视觉区、听觉区、语言区这些不同的分区里，激活了特定的、小范围的神经元。正是这些分区既独立又相互重叠的激活，帮助我们高效地将形态、声音和词汇完美地对齐。30亿参数以下的Transformer模型由于其全局计算的特性，很难高效地处理和对齐不同来源的模态信息。而我们的类脑激活机制本身就更接近大脑的分区处理模式，不同模态输入可以天然地激活不同的分区，让对齐变得更轻松、更精准。因此在3B规模下，我们依然能够保留强大的文本、语音、视觉联合理解能力。

null

问：“分区激活”的思路确实很巧妙。但人脑之所以能够只激活一小部分，是因为它本身就是一个近千亿参数的巨型模型，底子够厚。而我们现在的端侧模型，本身就只有区区几十亿参数，已经是在“螺蛳壳里做道场”了。我们真的能够指望一个小模型，通过激活更小的一部分，来完成更好的智能吗？

邹佳思：您这个问题，正好触及了当前大模型发展范式的核心——我们称之为压缩智能的困境。现在的预训练大模型，本质上是一个压缩智能的过程——就像一块巨大的海绵，它的训练过程，就是把海量的互联网数据（水），压缩进这个由几千亿参数构成的容器里。参数量越大，海绵越大，能够吸收和储存的知识自然就越多。这个范式在处理多模态时，会存在一些问题。压缩过文件的人应该都知道，1GB的文字打包压缩后，是比1GB的视频、图像这样的文件更小的。视频图像这样的文件本来就大，而压缩比又低，这就是为什么市面上小参数的Transformer模型，很难加入多模态能力。所以，如果游戏规则只是比谁的海绵更大、谁背的书更厚，那小参数的模型确实没有未来。

但我们认为，真正的智能，不应该只是压缩，更应该是成长和学习。这就是我们路线的根本不同：我们不是在一条道上走到黑，而是压缩智能+自主学习双线并行。我们刚才提到的分区激活，它的意义不仅在于节能，更在于它为成长提供了可能性。我们现在的模型只有30亿参数。但通过神经网络精细的动态分区，打比方分成100个区，那么一次只需要激活3000万个参数。这意味着，我们未来完全可以在手机内存允许的范围内，把端侧模型的总参数也做得很大，比如做到百亿甚至更多，但通过只激活其中极小一部分，来保持同样低的功耗。这就颠覆了游戏规则。我们不再是研究怎么把大模型变小，而是研究怎么让模型在端侧从小长到大。所以，当别人都在压缩这条路上内卷时，我们通过MCSD架构、分区激活、记忆神经单元，为端侧模型找到了第二条、也是我们认为更符合生命本质的成长路线——可持续的、低成本的自主学习。我们不只是在构建一个能够在设备端跑起来的模型，我们是在为端侧AI的未来，构建一个全新的、能够不断成长的大脑底座。

问：您提到了自主学习这个词，应该怎么理解Yan模型的自主学习？它和现在云端模型的个性化有什么不同吗？

邹佳思：自主学习，正是我们这次在WAIC上想展示的最令人兴奋的技术突破之一。目前我们接触到的云端大模型，都要通过预训练才能更新自己的智能。因为一个模型真正学习的过程——理解用户的反馈，并将其体现在自己的神经网络变化中，依赖于前向传播（推理/猜测）和反向传播（学习/修正）的过程。而反向传播本身是一个特别耗能的过程。在云端，一个千亿模型进行一次反向传播，需要动用一个庞大的、由上千张GPU组成的训练集群。所以，所有基于Transformer架构的模型，一旦被部署到你的手机上，就成了只读存储器——它只有前向传播的能力，失去了学习和更新的可能。我们接触到的所谓的个性化，都只是模型通过对话，记住了你的一些偏好，形成了一个外挂知识库，这并不是从根本上学习了你的偏好。因此有时候你和模型即使强调了很多遍你的偏好，模型还是会有自己想偏好的输出。而我们的创新，恰恰是在这个最根本的物理限制上，实现了一个看似不可能的突破：它让反向传播这个学习过程，第一次有可能在端侧设备上发生。

得益于分区激活的特性，当模型需要学习新知识时——比如记住你“喝咖啡不加糖”这个偏好——它不需要去撼动整个几十亿参数的神经网络。我们的架构能够做到：锁定与这个新知识直接相关的、那个被激活的、极小的神经元分区。在这个被隔离的微型战场里，执行一次低功耗的反向传播，只更新这个分区内极少数的权重参数。将这个学到的新知识，直接、永久地写入模型本体的神经网络中。通往个性化记忆和自主学习的大门就这样被打开了。

现在，我们的模型可以一边使用（推理），一边学习（训练），把新学到的东西，比如你的新习惯、新偏好，直接写进模型本体。它让模型拥有了真正的自主进化能力。

null

离线智能什么时候能够上AI玩具？

问：我们刚才聊了很多技术上的不可能与可能。现在我们回到市场，当大部分声音还在追逐云端千亿模型时，你们的技术却在短时间内找到了真实的商业订单。这让我们非常好奇，从你们的视角来看，当前市场上，究竟是哪一类玩家，对离线智能抱有最强烈的执念？他们背后的商业驱动力是什么？

邹佳思：目前，我们接触了多个领域的客户，而每个领域客户对于离线智能的执念背后，都有着深刻的商业逻辑。PC、平板和机器人是我们当前最核心、已实现量产的战场。我们会更关注更广域的中低算力市场。以我们和某头部出海厂商的合作为例。他们的核心诉求，并不仅仅是为未来的旗舰机型打造AI功能，更是要盘活手中数以亿计的、已经售出或正在销售的中低端设备。为什么硬件厂商如此在乎这些旧设备？这背后有两条生命线：

第一条，是针对已经卖到用户手里的设备。 通过OTA（空中升级）的方式，为这些旧设备推送我们的AI模型，可以创造全新的软件预装和增值服务收入。更重要的是，这极大地提升了品牌价值——“我几年前买的电脑，现在居然也能升级成AI PC了！”这种口碑是用钱也买不来的。
第二条，是针对当下仍在出货的、非旗舰的机型。 任何一个品牌都不可能只靠售价上万的顶配AI PC活着，真正的销量和利润，来自于广大的中低端市场。但这些设备，因为芯片算力限制，根本无法运行主流的Transformer模型，但厂商并不愿意因此看着自己的产品与AI绝缘。而我们的技术，恰恰是填补这个巨大空窗期的解。我们的模型能够直接在这些非旗舰的存量设备上流畅运行，让厂商下个月就能把AI PC卖到用户手中，而不是苦等三年。

除了PC和平板之外，我们也关注机器人和手机领域。与无人机公司也有一定的合作。

null

问：AI眼镜和AI玩具这些炙手可热的领域呢？

邹佳思：这两个品类，几乎是所有媒体和投资人见到我们必问的问题。它们代表了设备端AI最性感的想象力，但也暴露了最骨感的现实。它们的根源问题，其实是同一个：为了极致的成本控制和轻便性，这些设备里的芯片，从设计之初就不是为了跑AI的。

以AI眼镜为例，现在市面上的主流方案，用的要么是高通的AR专用芯片，要么是恒玄等厂商的芯片。这些芯片本质上是通信芯片，它们的任务是做好蓝牙连接、信息投屏、简单翻译等，算力被严格限制。结果就是，我们的模型想跑在大部分眼镜上，都跑不上去，算力、内存完全不达标。连我们都跑不上去，就更别提那些动辄几十亿参数的Transformer模型了，那更是天方夜谭。AI玩具也面临着完全一样的困境。市场对体验有极高的幻想，但硬件的物理现实却极其残酷。面对这个死结，我们目前看到了两条清晰的路径，我们也在同时推进：

第一条路，是“曲线救国”，也是当下最务实的方案。 既然眼镜本身算力不够，那就借用手机端的算力。这个方案，我们正在和一些头部的眼镜厂商进行深入的洽谈。
另一条路，是更激进、更面向未来的“釜底抽薪”。 我们和一些像影目科技（INMO）这样有魄力的伙伴，正在尝试一个大胆的想法：在下一代的眼镜上，直接换一颗更强大的大脑芯片。这当然会带来巨大的功耗和工业设计挑战。但对他们来说，一旦成功，就意味着拥有了一款独一无二的、能真正实现离线智能的眼镜。想象一下，你戴着它去海外旅游，在没有任何网络的环境下，它能够实现即时的、高质量的离线翻译，这种体验是“炸裂”的，是绝对的差异化优势。所以，对于眼镜和玩具这两个市场，我们既有务实的“当下解法”，也有着眼于未来的“终极方案”。我们非常有耐心，因为我们相信，真正的爆发，需要等待技术和硬件的完美共振。

问：现在国内的AI硬件赛道极其火热，但都以使用云端AI为主。但我观察到你们的客户，实际上是销往海外的。在离线智能这件事上，海内外的市场温度是否并不一致？

邹佳思：您观察到的这个“温度差”，正是我们现阶段战略布局的核心。销往海外市场的智能硬件，其实为我们提供了一片更广阔的蓝海。这种“炽热”的需求，主要源于三个在国内不太敏感的“痛点”：

第一，是根植于文化的“隐私执念”。 在欧美市场，用户对于个人数据隐私的重视程度，是写进法律、深入人心的。我们目前也在和一家头部玩具IP公司谈合作，他们之所以对我们的方案产生浓厚兴趣，一个核心前提就是：他们不希望用户的隐私上云。他们的内容IP和用户数据是最高级别的资产，必须在设备端处理。
第二，是客观存在的“网络鸿沟”。 我们很容易被国内一线城市无处不在的5G网络所“蒙蔽”，认为网络无所不能。但放眼全球，对于我们的出海伙伴来说，他们的用户可能在非洲的原野，也可能在东南亚的岛屿，这些地方的网络环境，让依赖云端的AI体验变得极不可靠。一个能够在弱网、无网环境下稳定运行的离线模型，是他们的“救命稻草”。
第三，是更高的人力成本催生的“效率需求”。 在海外，很多场景下用机器替代人力的意愿更强。当他们需要一个可靠的、无需联网的7x24小时接待员或多语言导游时，离线智能的商业价值会比国内市场体现得更直接、更迫切。所以，我们的战略非常清晰，我们称之为“借船出海”。我们通过赋能那些本身就非常优秀的中国出海企业，将我们的技术带给全球那些对离线智能有着最真实、最强烈需求的C端用户。

问：您的分享描绘了一个非常激动人心的前景，但也无法回避一个尖锐的现实：一方面，端侧模型是各家智能硬件厂商都在关注的重点，国外内手机巨头们都在投入重兵自研，试图把AI的命脉掌握在自己手里；另一方面，硬件的摩尔定律也在飞速前进，两三年后，当手机芯片强大到能轻松运行更大的模型时，你们今天“小而美”的优势，是否还存在？面对这样的未来，RockAI最深的护城河，究竟是什么？

邹佳思：您这个问题非常尖锐，它恰好点出了我们每天都在思考的两个核心挑战。首先，关于硬件变强，我们认为这是一个对我们有利的趋势。第一，任何高端硬件的普及，都至少需要两到三年的窗口期，在这个窗口期内，我们是解决海量存量和中端设备AI化问题的最优解。第二，当硬件底座变强，它能够容纳的不仅仅是更大的Transformer，也能容纳我们从小长到大的Yan架构大模型。我们同样可以做10B甚至更大的模型，而我们独特的自主学习、低功耗特性等优势，依然会存在。另一个问题，可能更触及我们这家公司的灵魂，回答了我们真正的护城河是什么。我们的团队基因，其实源于一个始于2015年的、未完成的梦。那时候，我们几个创始人就想做真正的智能硬件，当时的形态类似于小爱同学，但当时就因为AI技术不成熟而失败了。直到我们看到了Transformer的潜力，觉得时机到了，才再次聚到一起创业。再后来，我们就痛苦地发现，把Transformer这台“云端猛兽”硬塞进小小的设备里，这条路，在工程上根本走不通。那时，摆在我们面前的有两条路：一条是跟着行业主流，给Transformer打补丁，做各种优化，这条路更容易、也更容易被投资人看懂。另一条，是走一条更难、更孤独的路，承认此路不通，从零开始，去构建一个全新的、为端侧而生的架构。我们选择了后者。而支撑我们走下来的，不是我们有多少钱，有多少卡，或者团队背景有多光鲜。我们内部总结，可能就是一个很“玄学”的词：坚持。我们笃信，模型一定要跑到端上去，设备一定要有自己的智能。正是因为这份执念，我们才愿意去坐那两年多的冷板凳，在别人追逐云端风口时，我们像一个实验派的炼丹师，在实验室里反复尝试、验证，最终才炼出了Yan架构大模型这颗丹。所以，我们的护城河，不是某一两个技术点，因为聪明的人和团队太多了。我们的护城河，是我们因为坚持而趟过的那些坑、积累的认知，以及我们从第一天起就与众不同的、为端侧智能而生的创新基因。