离线智能崛起:RockAI如何突破端侧AI的算力与功耗瓶颈?

0

在AI技术飞速发展的今天,我们似乎已经习惯了云端那无所不能的强大算力,以及终端设备上不断涌现的创新应用。然而,当我们真正审视那些承诺永不离线的贴身AI时,却发现它们的核心智能依旧深深依赖于云端。那么,真正的离线智能,究竟何时才能迎来属于它的“DeepSeek时刻”?

曾经,行业内描绘的蓝图是如此美好:轻量化模型的能力不断增强,AI终将摆脱云端的束缚,在每个人的设备上实现永不离线的智能服务。但现实却有些尴尬,无论是近期走红的AI玩具,还是备受瞩目的AI眼镜,其核心交互和智能依然与云端紧密相连。即使是算力更为强大的手机和PC,真正实现离线AI能力的,仍然是凤毛麟角。

null

技术演示中,端侧模型似乎无所不能,但最终,我们期待的离线智能,为何还是离不开网络?

用户对体验的极致追求与端侧设备固有的“物理天花板”之间,存在着深刻的矛盾。用户渴望即时响应、保护隐私数据、在断网情况下也能保持智能服务,但端侧设备有限的算力、功耗和内存,却像一道无形的墙,阻碍着高性能模型的落地。

更深层次的矛盾,则在于商业利益的驱动。对于掌握最强模型的科技巨头而言,云端既是展示技术领导力的舞台,也是利润滚滚而来的源泉。当所有的目光和资源都聚焦于云端时,端侧这个需要投入更多精力、商业回报尚不明朗的领域,自然容易被忽视。

然而,仍有一群少数派,他们真正致力于推动“离线智能”的发展。在今年的世界人工智能大会(WAIC)上,一家名为RockAI的公司展示了他们的答案。他们选择了一条少有人走的路,并找到了破局的关键。

RockAI以“让每台设备都拥有专属智能”为使命,深入研究底层技术,甚至大胆地舍弃了主流的Transformer架构,攻克了端侧部署这块被视为“不可能完成的任务”。早在早期,他们的模型就能完整地运行在算力捉襟见肘的树莓派上。要知道,这块卡片大小的电脑一直是端侧部署的严苛试金石,大多数同类模型在它上面运行几句话就会卡顿。

null

在今年的WAIC上,RockAI推出了Yan 2.0 Preview,仅有30亿参数,却已经能够实现多模态,并在本地实现真正的“记忆”:模型可以动态调整权重,长期保留并更新用户的偏好。

这项“不可能完成的任务”的成果,并未停留在实验室的演示阶段。来自海内外的量产订单纷至沓来,将技术实力迅速转化为商业价值。

RockAI的故事或许能够回答一个根本问题:当云端模型高歌猛进时,我们为什么还需要、以及如何才能实现真正的离线智能?

极客公园采访了RockAI的联合创始人邹佳思,与他们深入探讨了RockAI背后的商业故事。

为什么我们还没有拥有永不下线的随身AI?

问: 整个行业似乎都在为离线智能的未来而努力,苹果这样的科技巨头更是将此视为核心战略。但为什么从技术演示到真正走进消费者手中,这“最后一公里”却总是难以打通?

邹佳思: 大家都热衷于讨论离线智能、设备端的AI,但理想与现实之间,横亘着两座几乎无法逾越的大山:算力与功耗。

大模型想要在设备上流畅运行,需要极高的算力配置。目前,许多AI公司虽然也推出了参数相对较小的模型,但仍然需要更高性能的芯片才能顺利运行。

举个例子,我们的一位客户希望在手机上部署离线大模型,但当时行业内其他大模型厂商提出的方案,几乎都要求必须使用高通最新的旗舰芯片以及16G以上的内存。然而,现实情况是,大多数智能设备都无法满足这样的算力需求。

这就是算力鸿沟带来的残酷现实:即使你的AI技术再先进,如果只能在少数顶配设备上应用,那么就失去了普惠AI的意义。

另一座大山,则是功耗。

这个问题在手机上体现得尤为明显。在实际应用中,手机厂商只要尝试部署大模型,设备的发热就会非常严重,这几乎是所有基于传统Transformer架构模型的通病。几乎所有主流手机厂商都曾与我们交流过这个痛点。他们都希望在下一代AI手机上实现突破,但却被功耗这堵墙挡住了去路。

为什么离线智能的“最后一公里”总是走不通?

一个无法回避的事实是,硬件的更新迭代速度相对较慢。许多设备在多年前就已经售出,当时的芯片、存储、麦克风、摄像头等硬件配置都不是为今天的大模型所准备的。将Transformer架构应用到这些中低端算力的设备上,要么根本无法运行,要么勉强运行但效果很差。

即使上游厂商推出了新一代的高端芯片,将其应用到新的产品线中,通常也需要6-12个月的时间;而产品真正实现热销、规模化出货并广泛普及,通常还需要额外1-2年的时间。这种节奏是客观存在的物理现实,无法被跳过。

问: 您刚才提到,无论是算力还是功耗,许多问题的根源都指向了目前主流的Transformer架构。Transformer在云端已经证明了自己是当前最强大的AI架构,为什么将其移植到端侧设备上,就会出现“水土不服”的情况呢?

邹佳思: 这个问题确实问到了在设备端运行大模型的挑战核心。Transformer之所以强大,很大程度上依赖于其革命性的注意力(Attention)机制。但问题恰恰也出在这里。

传统的AI模型就像一个流水线工人,处理信息时需要按照顺序逐个进行,记忆力有限,处理到后面的信息时,往往会忘记前面的内容。而Transformer就像一个拥有超能力的总指挥,它不是按顺序处理信息,而是将信息排列成一个方阵,然后要求方阵里的每一个元素都要与其他所有的元素进行“握手”,从而计算彼此之间的关联度。

这种“全局握手”的能力,赋予了Transformer卓越的理解能力。但在云端,你可以拥有无限的算力来支持这种计算。

然而,手机芯片(CPU/NPU)的设计,更像是我们刚才提到的“流水线”,它擅长的是高速、顺序地执行任务。如果你突然让它去完成一个需要“全局握手”的任务——每增加一个元素,计算量就会呈指数级增长——它会立刻变得手足无措。

我们从一开始就关注到了这个问题。目前业界也有一些改进方案,例如Flash Attention、线性注意力等。但我们的结论是,这些方案都只是在“指挥大厅”里进行一些小修小补,并没有从根本上改变“全局握手”这种高耗能的模式。

因此,我们最终选择了一条更为彻底的道路:保留Transformer强大的特征提取能力,但彻底移除那个消耗巨大的Attention机制,转而采用一种全新的、更适合在“流水线”上运行的架构来替代它。同期出现的Mamba架构也看到了类似的方向。我们不是去修补一辆不适合在崎岖小路上行驶的F1赛车,而是重新设计一辆能够在小路上飞驰的越野车。

null

问: 这听起来非常复杂。仅仅为了在智能硬件上运行,就要重新设计一个架构。离线智能真的有这么必要吗?

邹佳思: 这个问题很有意思。我们认为离线智能非常有必要,并且我们也确实看到了强烈的市场需求。

它的必要性体现在几个无法被云端替代的价值上:

首先,是绝对的隐私安全。这是像苹果这样的公司投入端侧AI研发的核心初衷。最敏感的数据,例如你的相册、健康信息、聊天记录等,根本就不应该离开你的设备。这是一个原则性问题。

其次,是极致的实时交互。许多应用场景对延迟的要求非常苛刻,需要达到毫秒级。例如,部署了Yan架构的无人机,用户发出“在我跳起来的时候抓拍”的指令,模型就必须瞬间响应。在这种场景下,任何一次网络波动都可能是致命的,你不可能依赖云端。再比如未来的机器人,它需要根据自己独特的臂长、传感器参数来做出精准的动作,这种与硬件高度绑定的实时控制,必须由本地的“大脑”来完成。

第三,是成本问题。云端API的价格看似在不断下降,甚至有些是免费的,但仍然存在成本。以摄像头为例,其出货量是以亿为单位的。在这种海量规模下,即使云端服务再便宜,乘以亿也是一笔天文数字。而走向离线智能,硬件成本是已经投入的,后续的使用几乎不产生额外的费用。从商业逻辑上讲,对于海量设备而言,本地部署一定是成本最优解。

本地模型就像一个守在你家门口的聪明管家,它能够保护你的隐私和安全,并且能够个性化地理解你。即使它不一定能够解决所有最复杂的问题,但它应该能够处理掉80%的日常琐事——例如打开应用、设置提醒、简单翻译、会议纪要等等,并且能够做得又快又安全。对于绝大多数用户来说,并不是每时每刻都需要处理复杂的任务。

云端模型能够满足用户比较高的需求,但是设备端的模型能够更快、更安全、更便宜地满足用户的大部分需求。

能实现离线智能的模型,应该是什么样的?

问: 刚刚提到,为了实现离线智能,你们选择了最艰难的道路——重新设计一辆“越野车”。那么,这辆新车的“发动机”,也就是你们新架构的核心机制,究竟是什么?

邹佳思: 我们的核心创新,就是抛弃了前面提到的Transformer那种需要“全局握手”、高耗能的Attention机制,回归到更轻量级的“特征—抑制—激活”架构,再配合分区激活技术,将每次真正运算的参数量压缩到十分之一甚至更低。这样一来,算力需求能够降到原来的五分之一以上,功耗也能降到十分之一。

前面提到过,在标准的Transformer架构中,无论任务多么简单,所有参数都必须全部被激活,才能获得一个高智能的答案。但是,人脑的运行方式并非如此。

人脑拥有大约800-900亿个神经元,我们可以将其理解为一个拥有800-900亿参数的模型。如果人脑是全量激活的,那么功耗可能会达到3000瓦甚至4000瓦,但实际上,人脑的实际功耗只有不到30瓦。

人脑是如何神奇地做到这一点的呢?答案就是分区激活。我们的模型正是借鉴了这种方式。

除了降低功耗之外,新的架构还让我们能够在参数量仅为3B的模型中,实现多模态。

为了方便理解,我们可以做一个不太严谨的比喻:当你看到一只鸟,听到它的叫声,同时又在阅读“鸟”这个字时,你的大脑并不是整个被点亮。而是在视觉区、听觉区、语言区这些不同的分区里,激活了特定的、小范围的神经元。正是这些分区既独立又相互重叠的激活,帮助我们高效地将形态、声音和词汇完美地对齐。

参数量在30亿以下的Transformer模型,由于其全局计算的特性,很难高效地处理和对齐来自不同来源的模态信息。而我们的类脑激活机制本身就更接近大脑的分区处理模式,不同的模态输入可以天然地激活不同的分区,使得对齐变得更加轻松、更加精准。因此,即使在3B的规模下,我们依然能够保留强大的文本、语音、视觉联合理解能力。

null

问: “分区激活”的思路确实非常巧妙。但人脑之所以能够只激活一小部分神经元,是因为它本身就是一个拥有近千亿参数的巨型模型,底子足够厚。而我们现在的端侧模型,本身就只有区区几十亿参数,已经是在“螺蛳壳里做道场”了。我们真的能够指望一个小模型,通过激活更小的一部分,来完成更好的智能吗?

邹佳思: 您提出的这个问题,正好触及了当前大模型发展范式的核心——我们称之为压缩智能的困境。

现在的预训练大模型,本质上是一个压缩智能的过程——就像一块巨大的海绵,它的训练过程,就是将海量的互联网数据(水)压缩到这个由几千亿参数构成的容器里。参数量越大,海绵越大,能够吸收和储存的知识自然就越多。

但这种范式在处理多模态信息时,会存在一些问题。有过文件压缩经验的人都知道,1GB的文字打包压缩后,通常比1GB的视频或图像文件更小。视频图像这类文件本身就很大,而压缩比又相对较低。这就是为什么市面上小参数的Transformer模型,很难加入多模态能力的原因。

因此,如果游戏规则仅仅是比谁的海绵更大、谁背的书更厚,那么小参数的模型确实没有未来。

但我们认为,真正的智能,不应该仅仅是压缩,更应该是成长和学习。这正是我们路线的根本不同:我们不是在一条道路上走到黑,而是压缩智能+自主学习双线并行。

我们前面提到的分区激活,它的意义不仅在于节能,更在于它为成长提供了可能性。

我们现在的模型只有30亿参数。但通过神经网络精细的动态分区,例如分成100个区,那么一次只需要激活3000万个参数。这意味着,我们未来完全可以在手机内存允许的范围内,将端侧模型的总参数也做得很大,例如做到百亿甚至更多,但通过只激活其中极小的一部分,来保持同样低的功耗。

这就颠覆了游戏规则。我们不再是研究如何将大模型变小,而是研究如何让模型在端侧从小长到大。

因此,当别人都在压缩这条道路上内卷时,我们通过MCSD架构、分区激活、记忆神经单元等技术,为端侧模型找到了第二条、也是我们认为更符合生命本质的成长路线——可持续的、低成本的自主学习。我们不只是在构建一个能够在设备端跑起来的模型,我们是在为端侧AI的未来,构建一个全新的、能够不断成长的大脑底座。

问: 您提到了自主学习这个词,应该如何理解Yan模型的自主学习?它和现在云端模型的个性化有什么不同吗?

邹佳思: 自主学习,正是我们这次在WAIC上想要展示的最令人兴奋的技术突破之一。

目前我们接触到的云端大模型,都需要通过预训练才能更新自己的智能。因为一个模型真正学习的过程——理解用户的反馈,并将其体现在自己的神经网络变化中,依赖于前向传播(推理/猜测)和反向传播(学习/修正)的过程。而反向传播本身是一个特别耗能的过程。在云端,一个千亿参数的模型进行一次反向传播,需要动用一个庞大的、由上千张GPU组成的训练集群。

因此,所有基于Transformer架构的模型,一旦被部署到你的手机上,就成了只读存储器——它只有前向传播的能力,失去了学习和更新的可能性。我们接触到的所谓的个性化,都只是模型通过对话,记住了你的一些偏好,形成了一个外挂知识库,这并不是从根本上学习了你的偏好。因此,有时候即使你和模型强调了很多遍你的偏好,模型还是会有自己想偏好的输出。

而我们的创新,恰恰是在这个最根本的物理限制上,实现了一个看似不可能的突破:它让反向传播这个学习过程,第一次有可能在端侧设备上发生。

得益于分区激活的特性,当模型需要学习新知识时——例如记住你“喝咖啡不加糖”这个偏好——它不需要去撼动整个几十亿参数的神经网络。我们的架构能够做到:锁定与这个新知识直接相关的、那个被激活的、极小的神经元分区。在这个被隔离的微型战场里,执行一次低功耗的反向传播,只更新这个分区内极少数的权重参数。将这个学到的新知识,直接、永久地写入模型本体的神经网络中。

通往个性化记忆和自主学习的大门就这样被打开了。

现在,我们的模型可以一边使用(推理),一边学习(训练),将新学到的东西,例如你的新习惯、新偏好,直接写入模型本体。它让模型拥有了真正的自主进化能力。

null

离线智能什么时候能够应用在AI玩具上?

问: 我们刚才聊了很多技术上的不可能与可能。现在让我们回到市场层面。当大部分声音还在追逐云端千亿参数模型时,你们的技术却在短时间内找到了真实的商业订单。这让我们非常好奇,从你们的角度来看,当前市场上究竟是哪一类玩家,对离线智能抱有最强烈的执念?他们背后的商业驱动力是什么?

邹佳思: 目前,我们接触了多个领域的客户,而每个领域客户对于离线智能的执念背后,都有着深刻的商业逻辑。

PC、平板和机器人是我们当前最核心、已实现量产的战场。我们会更关注更广阔的中低算力市场。

以我们和某头部出海厂商的合作为例。他们的核心诉求,并不仅仅是为未来的旗舰机型打造AI功能,更是要盘活手中数以亿计的、已经售出或正在销售的中低端设备。

为什么硬件厂商如此在乎这些旧设备?这背后有两条生命线:

第一条,是针对已经销售到用户手中的设备。通过OTA(空中升级)的方式,为这些旧设备推送我们的AI模型,可以创造全新的软件预装和增值服务收入。更重要的是,这极大地提升了品牌价值——“我几年前买的电脑,现在居然也能升级成AI PC了!”这种口碑是用钱也买不来的。

第二条,是针对当下仍在出货的、非旗舰机型。任何一个品牌都不可能只靠售价上万的顶配AI PC生存,真正的销量和利润,来自于广大的中低端市场。但这些设备,因为芯片算力限制,根本无法运行主流的Transformer模型,但厂商并不愿意因此看着自己的产品与AI绝缘。

而我们的技术,恰恰是填补这个巨大空窗期的解决方案。我们的模型可以直接在这些非旗舰的存量设备上流畅运行,让厂商下个月就能将AI PC销售到用户手中,而不是苦等三年。

除了PC和平板之外,我们也关注机器人和手机领域。我们与无人机公司也有一定的合作。

AI眼镜和AI玩具这些炙手可热的领域呢?

邹佳思: AI眼镜和AI玩具几乎是所有媒体和投资人见到我们时必问的问题。它们代表了设备端AI最性感的想象力,但也暴露了最骨感的现实。

它们的根源问题,其实是同一个:为了极致的成本控制和轻便性,这些设备里的芯片,从设计之初就不是为了运行AI的。

以AI眼镜为例,现在市面上的主流方案,用的要么是高通的AR专用芯片,要么是恒玄等厂商的芯片。这些芯片本质上是通信芯片,它们的任务是做好蓝牙连接、信息投屏、简单翻译等,算力被严格限制。

结果就是,我们的模型想要在大部分眼镜上运行,都跑不起来,算力、内存完全不达标。连我们都跑不起来,就更别提那些动辄几十亿参数的Transformer模型了,那更是天方夜谭。AI玩具也面临着完全一样的困境。

市场对体验有极高的幻想,但硬件的物理现实却极其残酷。

面对这个死结,我们目前看到了两条清晰的路径,我们也在同时推进:

第一条路,是“曲线救国”,也是当下最务实的方案。既然眼镜本身的算力不够,那就借用手机端的算力。这个方案,我们正在和一些头部的眼镜厂商进行深入的洽谈。

另一条路,是更激进、更面向未来的“釜底抽薪”。我们和一些像影目科技(INMO)这样有魄力的伙伴,正在尝试一个大胆的想法:在下一代的眼镜上,直接更换一颗更强大的“大脑”芯片。

这当然会带来巨大的功耗和工业设计挑战。但对他们来说,一旦成功,就意味着拥有了一款独一无二的、能真正实现离线智能的眼镜。想象一下,你戴着它去海外旅游,在没有任何网络的环境下,它能够实现即时的、高质量的离线翻译,这种体验是“炸裂”的,是绝对的差异化优势。

因此,对于眼镜和玩具这两个市场,我们既有务实的“当下解法”,也有着眼于未来的“终极方案”。我们非常有耐心,因为我们相信,真正的爆发,需要等待技术和硬件的完美共振。

现在国内的AI硬件赛道极其火热,但都以使用云端AI为主。但我观察到你们的客户,实际上是销往海外的。在离线智能这件事上,海内外的市场温度是否并不一致?

邹佳思: 您观察到的这个“温度差”,正是我们现阶段战略布局的核心。销往海外市场的智能硬件,其实为我们提供了一片更广阔的蓝海。这种“炽热”的需求,主要源于三个国内不太敏感的“痛点”:

首先,是根植于文化的“隐私执念”。在欧美市场,用户对于个人数据隐私的重视程度,是写进法律、深入人心的。我们目前也在和一家头部玩具IP公司谈合作,他们之所以对我们的方案产生浓厚兴趣,一个核心前提就是:他们不希望用户的隐私上云。他们的内容IP和用户数据是最高级别的资产,必须在设备端处理。

其次,是客观存在的“网络鸿沟”。我们很容易被国内一线城市无处不在的5G网络所“蒙蔽”,认为网络无所不能。但放眼全球,对于我们的出海伙伴来说,他们的用户可能在非洲的原野,也可能在东南亚的岛屿,这些地方的网络环境,让依赖云端的AI体验变得极不可靠。一个能够在弱网、无网环境下稳定运行的离线模型,是他们的“救命稻草”。

第三,是更高的人力成本催生的“效率需求”。在海外,很多场景下用机器替代人力的意愿更强。当他们需要一个可靠的、无需联网的7x24小时接待员或多语言导游时,离线智能的商业价值会比国内市场体现得更直接、更迫切。

因此,我们的战略非常清晰,我们称之为“借船出海”。我们通过赋能那些本身就非常优秀的中国出海企业,将我们的技术带给全球那些对离线智能有着最真实、最强烈需求的C端用户。

您的分享描绘了一个非常激动人心的前景,但也无法回避一个尖锐的现实:一方面,端侧模型是各家智能硬件厂商都在关注的重点,国内外手机巨头们都在投入重兵自研,试图把AI的命脉掌握在自己手里;另一方面,硬件的摩尔定律也在飞速前进,两三年后,当手机芯片强大到能够轻松运行更大的模型时,你们今天“小而美”的优势,是否还存在?面对这样的未来,RockAI最深的护城河,究竟是什么?

邹佳思: 您这个问题非常尖锐,它恰好点出了我们每天都在思考的两个核心挑战。

首先,关于硬件变强。我们认为这是一个对我们有利的趋势。第一,任何高端硬件的普及,都至少需要两到三年的窗口期,在这个窗口期内,我们是解决海量存量和中端设备AI化问题的最优解。第二,当硬件底座变强,它能够容纳的不仅仅是更大的Transformer,也能容纳我们从小长到大的Yan架构大模型。我们同样可以做10B甚至更大的模型,而我们独特的自主学习、低功耗特性等优势,依然会存在。

另一个问题,可能更触及我们这家公司的灵魂,回答了我们真正的护城河是什么。

我们的团队基因,其实源于一个始于2015年的、未完成的梦想。那时候,我们几个创始人就想做真正的智能硬件,当时的形态类似于小爱同学,但当时就因为AI技术不成熟而失败了。直到我们看到了Transformer的潜力,觉得时机到了,才再次聚到一起创业。

再后来,我们就痛苦地发现,将Transformer这台“云端猛兽”硬塞进小小的设备里,这条路,在工程上根本走不通。

那时,摆在我们面前的有两条路:一条是跟着行业主流,给Transformer打补丁,做各种优化,这条路更容易、也更容易被投资人看懂。另一条,是走一条更难、更孤独的路,承认此路不通,从零开始,去构建一个全新的、为端侧而生的架构。

我们选择了后者。而支撑我们走下来的,不是我们有多少钱,有多少卡,或者团队背景有多光鲜。我们内部总结,可能就是一个很“玄学”的词:坚持。

我们笃信,模型一定要跑到端上去,设备一定要有自己的智能。正是因为这份执念,我们才愿意去坐那两年多的冷板凳,在别人追逐云端风口时,我们像一个实验派的炼丹师,在实验室里反复尝试、验证,最终才炼出了Yan架构大模型这颗丹。

因此,我们的护城河,不是某一两个技术点,因为聪明的人和团队太多了。我们的护城河,是我们因为坚持而趟过的那些坑、积累的认知,以及我们从第一天起就与众不同的、为端侧智能而生的创新基因。