在人工智能领域,人们的目光往往聚焦于云端那强大而全面的智能,以及终端设备上充满无限可能的应用。过去几年,业界普遍认为,随着轻量化模型能力的不断提升,人工智能终将摆脱云端的束缚,实现在个人设备上的永久离线智能,这似乎只是时间问题。然而,经过一番热闹的探索后,一个不容忽视的现实摆在了我们面前:无论是近期走红的AI玩具,还是备受关注的AI眼镜,它们的核心交互和智能功能,依然高度依赖云端。即使是算力更强的手机和PC,真正实现离线AI能力的,依然是凤毛麟角。
技术演示中,端侧模型似乎无所不能,但最终承诺的离线智能,为何总是离不开网络?用户对体验有着极致的追求:即时响应,隐私保护,以及在断网情况下也能正常使用。然而,端侧设备始终面临着无法回避的“物理天花板”——有限的算力、功耗和内存,像一道无形的屏障,阻碍了绝大多数高性能模型的落地。
更深层次的矛盾,则在于商业利益的驱动。对于掌握最强大模型的科技巨头而言,云端不仅是展示技术领导力的舞台,更是获取丰厚利润的来源。当所有的目光和资源都集中在云端时,那些更艰苦、更耗时,且商业回报尚不明朗的端侧,自然而然地被边缘化了。
那么,那些真正致力于推动“离线智能”的少数派,他们究竟在做些什么?在今年的世界人工智能大会(WAIC)上,一家名为RockAI的公司展示了他们的解决方案。他们正在探索一条鲜有人走的路,并找到了突破困局的钥匙。
RockAI以“让每台设备都拥有专属智能”为使命,深入研究底层技术,甚至大胆放弃了主流的Transformer架构,攻克了端侧部署这一被认为是“不可能完成的任务”。早期,他们的模型就能够在算力有限的树莓派上完整运行。而今年WAIC推出的Yan 2.0 Preview,仅有30亿参数,却已经实现了多模态功能,并在本地实现了真正的“记忆”:模型可以动态调整权重,长期保留并更新用户的偏好。目前,RockAI已收到来自海内外市场的量产订单,正在将技术实力迅速转化为商业价值。
RockAI的故事,或许能够回答一个根本问题:当云端模型高歌猛进时,我们为什么还需要,以及如何才能实现真正的离线智能?
为什么我们还没有拥有永不下线的随身AI?
问: 整个行业似乎都在为离线智能的未来而努力,苹果这样的科技巨头更是将其视为核心战略。但为什么从技术演示到实际应用,这“最后一公里”却总是难以突破?
邹佳思: 大家都热衷于讨论离线智能和设备端AI,但理想与现实之间,横亘着两座难以逾越的大山:算力和功耗。大型模型要在设备上运行,需要极高的算力支持。目前,许多AI公司虽然也开发出参数较小的模型,但仍然需要更强大的芯片才能流畅运行。例如,RockAI的一位客户希望在手机上部署离线大型模型,但当时其他模型厂商提出的方案,几乎都要求使用高通最新的旗舰芯片以及16G以上的内存。然而,现实情况是,大多数智能设备都无法达到这样的算力水平。
这就是算力鸿沟:即使AI技术再先进,如果只能在少数高端设备上应用,那么就失去了普惠AI的意义。
另一座大山,则是功耗。这个问题在手机上表现得尤为突出。实际上,手机厂商只要尝试部署大型模型,设备的发热问题就会非常严重,这几乎是所有基于传统Transformer架构模型的通病。几乎所有主流手机厂商都曾与RockAI交流过这个痛点,他们都希望在下一代AI手机上实现突破,但都被功耗问题所阻碍。
“最后一公里”难以突破的根本原因在于,硬件的更新速度相对滞后。很多设备多年前就已经售出,当时的芯片、存储、麦克风、摄像头等硬件配置,并非为今天的大型模型而设计。将Transformer架构应用于这些中低端算力的设备上,要么无法运行,要么勉强运行但效果不佳。
即使上游厂商推出新一代高端芯片,将其应用到新产品线也往往需要6-12个月的时间;而产品真正实现热销、规模化出货并广泛普及,通常还需要额外1-2年。这种节奏是客观存在的物理现实,无法跳过。
问: 您刚才提到,无论是算力还是功耗,很多问题的根源都指向了目前主流的Transformer架构。Transformer在云端证明了自己是当前最强大的AI架构,为什么将其应用到端侧设备上,就会出现“水土不服”的情况?
邹佳思: 这个问题确实抓住了在设备端运行大型模型的关键挑战。Transformer之所以强大,依赖于其革命性的注意力(Attention)机制。但问题也恰恰出在这里。传统的AI模型在处理信息时,就像一个流水线工人,按顺序逐个处理,记忆力有限,处理到后面就容易忘记前面。而Transformer就像一个拥有超能力的总指挥,它不是按顺序处理信息,而是将信息排列成一个方阵,然后要求方阵里的每一个元素,都要与其他所有的元素进行“握手”,以计算彼此之间的关联度。
这种“全局握手”的能力,赋予了Transformer卓越的理解能力。但在云端,有无限的算力来支持这种计算。然而,手机芯片(CPU/NPU)的设计,更像是前面提到的“流水线”,它擅长高速、顺序地执行任务。如果突然让它完成一个需要“全局握手”的任务——每增加一个元素,计算量就会指数级暴增——它就会难以应对。
RockAI从一开始就关注到了这个问题。目前业界也有一些改进方案,如Flash Attention、线性注意力等。但RockAI的结论是,这些都只是在“指挥大厅”里进行小修小补,没有从根本上改变“全局握手”这种高耗能的模式。因此,RockAI选择了一条更彻底的道路:保留Transformer强大的特征提取能力,但彻底移除消耗巨大的Attention机制,转而采用一种全新的、更适合在“流水线”上运行的架构来替代它。国外同期的Mamba架构也看到了类似的方向。这就像不是去修补一辆不适合在小路上行驶的F1赛车,而是重新设计一辆能在小路上飞驰的越野车。
问: 这听起来非常复杂。仅仅为了在智能硬件上运行,就要重新设计一个架构。离线智能真的有这么必要吗?
邹佳思: 这个问题很有趣,RockAI认为非常有必要,并且也确实看到了强烈的市场需求。离线智能的必要性体现在几个无法被云端替代的价值上:
- 绝对的隐私安全: 这是苹果等公司投入端侧AI最核心的初衷。最敏感的数据,如相册、健康信息、聊天记录等,不应该离开用户的设备。这是一个原则性问题。
- 极致的实时交互: 许多场景对延迟的要求是毫秒级的。例如,部署了Yan架构的无人机,需要对用户发出的“在我跳起来的时候抓拍”指令做出瞬间响应。在这种场景下,任何一次网络波动都可能是致命的,不可能依赖云端。再比如未来的机器人,需要根据自身独特的臂长、传感器参数来做出精确的动作,这种与硬件高度绑定的实时控制,必须由本地的“大脑”来完成。
- 成本问题: 云端API的价格看似在不断下降,甚至免费,但仍然存在成本。以摄像头为例,其出货量是以亿为单位。在这种海量规模下,云端再便宜,乘以亿也是一笔天文数字。而走向离线智能,硬件成本是已经投入的,后续的使用几乎不产生额外费用。从商业逻辑上来看,对于海量设备,本地部署一定是成本最优解。
本地模型就像一个守在门口的聪明管家,它能够提供隐私、安全且个性化的服务。即使它不一定能解决所有最复杂的问题,但应该能够处理掉80%的日常琐事——打开应用、设置提醒、简单翻译、会议纪要等,并且能够快速、安全地完成。对于绝大多数用户而言,并非每时每刻都需要处理复杂的任务。
云端模型能够满足用户较高层次的需求,而设备端的模型则能够更快、更安全、更经济地满足用户的大部分需求。
能实现离线智能的模型,应该是什么样的?
问: 刚才提到,为了实现离线智能,RockAI选择了一条最艰难的道路——重新设计一辆“越野车”。那么,这辆新车的“发动机”,也就是新架构的核心机制,究竟是什么?
邹佳思: RockAI的核心创新,是抛弃了Transformer那种需要“全局握手”、高耗能的Attention机制,回归到更轻量级的“特征—抑制—激活”架构,再配合分区激活,将每次真正运算的参数量压缩到十分之一甚至更低,从而将算力需求降低到原来的五分之一以上,功耗降到十分之一。在标准的Transformer架构中,无论任务多么简单,所有参数都必须被激活,才能得到一个高智能的答案。但人脑的运作方式并非如此。
人脑拥有大约800-900亿个神经元,我们可以将其理解为一个拥有800-900亿参数的模型。如果人脑完全激活,功耗可能会达到3000-4000瓦,但实际上人脑的功耗只有不到30瓦。人脑之所以能够实现如此高效的运作,正是依靠分区激活。RockAI的模型正是借鉴了这种方式。
除了降低功耗外,新的架构还使得RockAI能够在3B模型中实现多模态。
用一个不太严谨的比喻来说,当你看到一只鸟,听到它的叫声,同时又在阅读“鸟”这个字时,你的大脑并非完全被点亮,而是在视觉区、听觉区、语言区等不同的分区中,激活了特定的、小范围的神经元。正是这些分区既独立又相互重叠的激活,帮助我们将形态、声音和词汇高效地对齐。
由于全局计算的特性,参数量在30亿以下的Transformer模型,很难高效地处理和对齐来自不同来源的模态信息。而RockAI的类脑激活机制本身就更接近大脑的分区处理模式,不同的模态输入可以自然地激活不同的分区,使得对齐变得更加轻松、更加精确。因此,在3B的规模下,RockAI依然能够保留强大的文本、语音、视觉联合理解能力。
问: “分区激活”的思路确实非常巧妙。但人脑之所以能够只激活一小部分,是因为它本身就是一个拥有近千亿参数的巨型模型,底子足够厚。而现在的端侧模型,本身就只有几十亿参数,已经在“螺蛳壳里做道场”了。我们真的能够指望一个小模型,通过激活更小的一部分,来完成更好的智能吗?
邹佳思: 这个问题正好触及了当前大模型发展范式的核心——RockAI称之为压缩智能的困境。
现在的预训练大模型,本质上是一个压缩智能的过程——就像一块巨大的海绵,它的训练过程,就是将海量的互联网数据(水)压缩到这个由数千亿参数构成的容器中。参数量越大,海绵越大,能够吸收和储存的知识自然就越多。
这个范式在处理多模态时,会存在一些问题。压缩过文件的人都知道,1G的文字打包压缩后,比1G的视频、图像等文件更小。视频图像等文件本身就很大,而压缩比又低,这就是为什么市面上小参数的Transformer模型,很难加入多模态能力。
因此,如果游戏规则只是比谁的海绵更大、谁背的书更厚,那么小参数的模型确实没有未来。
但RockAI认为,真正的智能,不应该只是压缩,更应该是成长和学习。这就是RockAI路线的根本不同:RockAI不是在一条路上走到黑,而是压缩智能+自主学习双线并行。
RockAI刚才提到的分区激活,其意义不仅在于节能,更在于为成长提供了可能性。
RockAI现在的模型只有30亿参数。但通过神经网络精细的动态分区,比如分成100个区,那么一次只需要激活3000万个参数。这意味着,RockAI未来完全可以在手机内存允许的范围内,将端侧模型的总参数也做得很大,比如达到百亿甚至更多,但通过只激活其中极小一部分,来保持同样低的功耗。
这就颠覆了游戏规则。RockAI不再是研究如何将大模型变小,而是研究如何让模型在端侧从小长到大。
所以,当其他公司都在压缩这条路上内卷时,RockAI通过MCSD架构、分区激活、记忆神经单元,为端侧模型找到了第二条、也是RockAI认为更符合生命本质的成长路线——可持续的、低成本的自主学习。RockAI不只是在构建一个能够在设备端运行的模型,而是在为端侧AI的未来,构建一个全新的、能够不断成长的大脑底座。
问: 您提到了自主学习这个词,如何理解Yan模型的自主学习?它和现在云端模型的个性化有什么不同吗?
邹佳思: 自主学习,正是RockAI在这次WAIC上想要展示的最令人兴奋的技术突破之一。
目前RockAI接触到的云端大模型,都需要通过预训练才能更新自己的智能。因为一个模型真正学习的过程——理解用户的反馈,并将其体现在自己的神经网络变化中,依赖于前向传播(推理/猜测)和反向传播(学习/修正)的过程。而反向传播本身是一个特别耗能的过程。在云端,一个千亿模型进行一次反向传播,需要动用一个庞大的、由上千张GPU组成的训练集群。
因此,所有基于Transformer架构的模型,一旦被部署到用户的手机上,就成了只读存储器——它只有前向传播的能力,失去了学习和更新的可能。RockAI接触到的所谓个性化,都只是模型通过对话,记住了用户的一些偏好,形成了一个外挂知识库,这并不是从根本上学习了用户的偏好。因此,有时候用户和模型即使强调了很多遍自己的偏好,模型还是会有自己偏好的输出。
而RockAI的创新,恰恰是在这个最根本的物理限制上,实现了一个看似不可能的突破:它让反向传播这个学习过程,第一次有可能在端侧设备上发生。
得益于分区激活的特性,当模型需要学习新知识时——比如记住用户“喝咖啡不加糖”这个偏好——它不需要去撼动整个几十亿参数的神经网络。RockAI的架构能够做到:锁定与这个新知识直接相关的、那个被激活的、极小的神经元分区。在这个被隔离的微型战场里,执行一次低功耗的反向传播,只更新这个分区内极少数的权重参数。将这个学到的新知识,直接、永久地写入模型本体的神经网络中。
通往个性化记忆和自主学习的大门就这样被打开了。
现在,RockAI的模型可以一边使用(推理),一边学习(训练),将新学到的东西,比如用户的新习惯、新偏好,直接写入模型本体,从而使模型拥有了真正的自主进化能力。
离线智能什么时候能够应用于AI玩具?
问: 刚才聊了很多技术上的不可能与可能。现在我们回到市场,当大部分声音还在追逐云端千亿模型时,RockAI的技术却在短时间内找到了真实的商业订单。这让RockAI非常好奇,从RockAI的视角来看,当前市场上,究竟是哪一类玩家,对离线智能抱有最强烈的执念?他们背后的商业驱动力是什么?
邹佳思: 目前,RockAI接触了多个领域的客户,而每个领域客户对于离线智能的执念背后,都有着深刻的商业逻辑。PC、平板和机器人是RockAI当前最核心、已实现量产的战场,并且会更关注更广域的中低算力市场。
以RockAI和某头部出海厂商的合作为例。他们的核心诉求,不仅仅是为未来的旗舰机型打造AI功能,更是要盘活手中数以亿计的、已经售出或正在销售的中低端设备。
为什么硬件厂商如此在乎这些旧设备?这背后有两条生命线:
第一条,是针对已经销售到用户手中的设备。通过OTA(空中升级)的方式,为这些旧设备推送RockAI的AI模型,可以创造全新的软件预装和增值服务收入。更重要的是,这极大地提升了品牌价值——“我几年前买的电脑,现在居然也能升级成AI PC了!”这种口碑是用钱也买不来的。
第二条,是针对当下仍在出货的、非旗舰的机型。任何一个品牌都不可能只靠售价上万的顶配AI PC活着,真正的销量和利润,来自于广大的中低端市场。但这些设备,因为芯片算力限制,根本无法运行主流的Transformer模型,但厂商并不愿意因此看着自己的产品与AI绝缘。
而RockAI的技术,恰恰是填补这个巨大空窗期的解决方案。RockAI的模型可以直接在这些非旗舰的存量设备上流畅运行,让厂商下个月就能将AI PC销售到用户手中,而不是苦等三年。
除了PC和平板之外,RockAI也关注机器人和手机领域,并与无人机公司有一定的合作。
问: AI眼镜和AI玩具这些炙手可热的领域呢?
邹佳思: 这两个品类,几乎是所有媒体和投资人在见到RockAI时必问的问题。它们代表了设备端AI最性感的想象力,但也暴露了最骨感的现实。它们的根源问题,其实是同一个:为了极致的成本控制和轻便性,这些设备里的芯片,从设计之初就不是为了运行AI的。
以AI眼镜为例,现在市面上的主流方案,要么使用高通的AR专用芯片,要么使用恒玄等厂商的芯片。这些芯片本质上是通信芯片,它们的任务是做好蓝牙连接、信息投屏、简单翻译等,算力被严格限制。
结果就是,RockAI的模型想要在大部分眼镜上运行,都无法实现,因为算力和内存完全不达标。连RockAI的模型都无法运行,就更别提那些动辄几十亿参数的Transformer模型了,那更是天方夜谭。AI玩具也面临着完全一样的困境。
市场对体验有极高的幻想,但硬件的物理现实却极其残酷。
面对这个死结,RockAI目前看到了两条清晰的路径,并且也在同时推进:
第一条路,是“曲线救国”,也是当下最务实的方案。既然眼镜本身的算力不够,那就借用手机端的算力。目前,RockAI正在和一些头部的眼镜厂商进行深入的洽谈。
另一条路,是更激进、更面向未来的“釜底抽薪”。RockAI和一些像影目科技(INMO)这样有魄力的合作伙伴,正在尝试一个大胆的想法:在下一代的眼镜上,直接更换一颗更强大的“大脑”芯片。
这当然会带来巨大的功耗和工业设计挑战。但对他们来说,一旦成功,就意味着拥有一款独一无二的、能够真正实现离线智能的眼镜。想象一下,你戴着它去海外旅游,在没有任何网络的环境下,它能够实现即时的、高质量的离线翻译,这种体验是“炸裂”的,是绝对的差异化优势。
所以,对于眼镜和玩具这两个市场,RockAI既有务实的“当下解法”,也有着眼于未来的“终极方案”。RockAI非常有耐心,因为RockAI相信,真正的爆发,需要等待技术和硬件的完美共振。
问: 现在国内的AI硬件赛道极其火热,但都以使用云端AI为主。但我观察到你们的客户,实际上是销往海外的。在离线智能这件事上,海内外的市场温度是否并不一致?
邹佳思: 您观察到的这个“温度差”,正是RockAI现阶段战略布局的核心。销往海外市场的智能硬件,其实为RockAI提供了一片更广阔的蓝海。这种“炽热”的需求,主要源于三个国内不太敏感的“痛点”:
第一,是根植于文化的“隐私执念”。在欧美市场,用户对于个人数据隐私的重视程度,是写进法律、深入人心的。RockAI目前也在和一家头部玩具IP公司谈合作,他们之所以对RockAI的方案产生浓厚兴趣,一个核心前提就是:他们不希望用户的隐私上云。他们的内容IP和用户数据是最高级别的资产,必须在设备端处理。
第二,是客观存在的“网络鸿沟”。我们很容易被国内一线城市无处不在的5G网络所“蒙蔽”,认为网络无所不能。但放眼全球,对于RockAI的出海伙伴来说,他们的用户可能在非洲的原野,也可能在东南亚的岛屿,这些地方的网络环境,让依赖云端的AI体验变得极不可靠。一个能够在弱网、无网环境下稳定运行的离线模型,是他们的“救命稻草”。
第三,是更高的人力成本催生的“效率需求”。在海外,很多场景下用机器替代人力的意愿更强。当他们需要一个可靠的、无需联网的7x24小时接待员或多语言导游时,离线智能的商业价值会比国内市场体现得更直接、更迫切。
所以,RockAI的战略非常清晰,RockAI称之为“借船出海”。RockAI通过赋能那些本身就非常优秀的中国出海企业,将RockAI的技术带给全球那些对离线智能有着最真实、最强烈需求的C端用户。
问: 您的分享描绘了一个非常激动人心的前景,但也无法回避一个尖锐的现实:一方面,端侧模型是各家智能硬件厂商都在关注的重点,国外内手机巨头们都在投入重兵自研,试图将AI的命脉掌握在自己手里;另一方面,硬件的摩尔定律也在飞速前进,两三年后,当手机芯片强大到能够轻松运行更大的模型时,你们今天“小而美”的优势,是否还存在?面对这样的未来,RockAI最深的护城河,究竟是什么?
邹佳思: 您这个问题非常尖锐,它恰好点出了RockAI每天都在思考的两个核心挑战。
首先,关于硬件变强。RockAI认为这是一个对RockAI有利的趋势。第一,任何高端硬件的普及,都至少需要两到三年的窗口期,在这个窗口期内,RockAI是解决海量存量和中端设备AI化问题的最优解。第二,当硬件底座变强,它能够容纳的不仅仅是更大的Transformer,也能容纳RockAI从小长到大的Yan架构大模型。RockAI同样可以做10B甚至更大的模型,而RockAI独特的自主学习、低功耗特性等优势,依然会存在。
另一个问题,可能更触及RockAI这家公司的灵魂,回答了RockAI真正的护城河是什么。
RockAI的团队基因,其实源于一个始于2015年的、未完成的梦。那时候,RockAI的几位创始人就想做真正的智能硬件,当时的形态类似于小爱同学,但当时就因为AI技术不成熟而失败了。直到RockAI看到了Transformer的潜力,觉得时机到了,才再次聚到一起创业。
再后来,RockAI就痛苦地发现,将Transformer这台“云端猛兽”硬塞进小小的设备里,这条路,在工程上根本走不通。
那时,摆在RockAI面前的有两条路:一条是跟着行业主流,给Transformer打补丁,做各种优化,这条路更容易、也更容易被投资人看懂。另一条,是走一条更难、更孤独的路,承认此路不通,从零开始,去构建一个全新的、为端侧而生的架构。
RockAI选择了后者。而支撑RockAI走下来的,不是RockAI有多少钱,有多少卡,或者团队背景有多光鲜。RockAI内部总结,可能就是一个很“玄学”的词:坚持。
RockAI笃信,模型一定要跑到端上去,设备一定要有自己的智能。正是因为这份执念,RockAI才愿意去坐那两年多的冷板凳,在别人追逐云端风口时,RockAI像一个实验派的炼丹师,在实验室里反复尝试、验证,最终才炼出了Yan架构大模型这颗丹。
所以,RockAI的护城河,不是某一两个技术点,因为聪明的人和团队太多了。RockAI的护城河,是RockAI因为坚持而趟过的那些坑、积累的认知,以及RockAI从第一天起就与众不同的、为端侧智能而生的创新基因。