DeepSeek稀疏注意力技术:AI计算成本革命性突破

1

引言:AI计算效率的新曙光

你是否曾好奇,为什么ChatGPT在长对话中会逐渐变慢?这背后是一个根本性的数学挑战:处理长文本序列需要庞大的计算资源,即使各公司已部署了多种效率优化技术。对于美国科技巨头而言,他们可以通过增加硬件投入来解决问题,但对于受先进AI芯片出口限制的中国AI公司DeepSeek来说,如何在有限的硅资源上榨取更多性能,则成为了额外的动力。

近日,DeepSeek发布了其最新模拟推理语言模型的实验版本——DeepSeek-V3.2-Exp,引入了名为"DeepSeek Sparse Attention"(DSA)的创新技术。这是该公司对一种计算技术的实现,而这项技术可能已被全球一些最先进的AI模型所采用。OpenAI在2019年开创了稀疏Transformer技术,并利用该技术构建了GPT-3;谷歌研究所在2020年也发表了使用类似概念的"Reformer"模型研究。然而,西方AI公司在最新模型中稀疏注意力的使用程度仍不为人知。

稀疏注意力:解决AI的"注意力瓶颈"

在AI领域,"注意力"是一种软件技术,用于确定文本中哪些词语对理解彼此最为相关。这些关系构建了上下文,而上下文则赋予语言意义。例如,在"银行提高了利率"这句话中,注意力机制帮助模型建立"银行"与"利率"在金融语境下的关联,而非河岸语境。通过注意力机制,概念关系被量化为存储在神经网络中的数值。注意力还控制着AI语言模型在生成每个词时如何选择"最重要的"信息。

用机器计算上下文具有挑战性,直到能够并行计算这些关系的GPU等芯片达到一定能力水平,这一方法才在规模上变得实用。即便如此,2017年原始的Transformer架构仍以某种蛮力方式检查提示中每个词与其他所有词的关系。因此,如果将包含1000个词的提示输入AI模型,将产生1000×1000次比较,即需要计算100万种关系。当词数达到10000时,比较次数将增至1亿次。成本呈二次方增长,这为处理长对话设置了根本性瓶颈。

尽管OpenAI可能在GPT-5中使用了一些稀疏注意力技术,但长对话仍会遭受性能损失。每次向ChatGPT提交新回复时,其核心AI模型都会重新处理整个对话历史的上下文比较。

当然,原始Transformer模型的研究者设计它是用于机器翻译,处理相对较短的序列(可能几百个token,即代表单词的数据块),在这种场景下,二次方注意力计算尚可管理。但当人们开始扩展到数千或数万个token时,二次方成本变得难以承受。

稀疏注意力则采用不同方法。它不是检查每个词与其他所有词的关系,而是只检查模型确定的最相关的子集词汇关系。例如,处理文档中的第5000个词时,模型可能只检查它与100个精心筛选的前置词的关系,而非所有4999个前置词。

DeepSeek的模型通过训练获得确定优先处理哪些关系的能力,使用DeepSeek所谓的"闪电索引器"。正如DeepSeek在新模型论文中所述,这个小型神经网络组件对词对之间的相关性进行评分,并为每个词选择最重要的2048个连接,尽管论文并未完全解释这个索引器如何做出决策。DeepSeek声称其实现能够在不降低模型对整体文本理解的情况下,识别出可以跳过的连接。

技术突破:DeepSeek的创新之处

尽管稀疏注意力概念已存在多年,但DeepSeek声称其版本首次实现了"细粒度稀疏注意力",并将API价格降低了50%,以展示效率提升。DeepSeek在2025年1月因其R1模拟推理模型而引起轰动,该模型据报道匹配了OpenAI的o1性能,但训练成本仅为600万美元,其聊天应用也曾短暂超越ChatGPT,登顶iPhone App Store。如今,所有目光都聚焦在这家给美国顶尖AI实验室带来竞争压力的公司身上。

DeepSeek-V3.2-Exp基于公司之前的V3.1-Terminus模型,但融入了DeepSeek稀疏注意力技术。根据公司基准测试,即使使用稀疏注意力,实验模型的表现也与前代模型相当。

DeepSeek v3.2实验模型基准测试

值得注意的是,与OpenAI和Anthropic的高端AI模型不同,此次发布包含MIT许可下的开源组件和开放权重,允许其他研究人员在此基础上进行开发。

TechCrunch报道,DeepSeek的初步测试发现在长上下文情况下,API成本可降低高达50%。然而,这些基准测试来自DeepSeek自己的测试,第三方研究人员尚未有时间独立验证性能声明或验证效率改进。但如果这项研究取得成果,稀疏注意力技术的改进将随着时间的推移显著降低AI推理成本。

行业影响与未来展望

DeepSeek的稀疏注意力技术突破对整个AI行业具有深远影响。首先,它直接解决了AI模型处理长文本时的计算瓶颈问题,使得更长的上下文窗口成为可能,这对于需要处理大量信息的AI应用至关重要。

其次,成本降低将使AI技术更加普及。API价格的大幅下调意味着中小企业和开发者也能负担得起更强大的AI服务,这将加速AI技术在各行业的应用和创新。

第三,这一技术突破对于受芯片出口限制的中国AI公司尤为重要。通过算法创新而非单纯依赖硬件性能,DeepSeek展示了一条在资源受限条件下仍能保持技术竞争力的路径。

未来,随着更多研究人员对DeepSeek开源模型的研究和改进,我们可能会看到稀疏注意力技术的进一步优化和应用扩展。这项技术不仅可能改变大型语言模型的运行方式,还可能影响计算机视觉、语音识别等其他AI领域的架构设计。

结论:算法创新引领AI新方向

DeepSeek的稀疏注意力技术代表了AI领域的一个重要进步,它通过算法创新而非单纯依赖硬件性能来解决计算效率问题。这一突破不仅展示了DeepSeek的技术实力,也为整个行业提供了降低AI运行成本的全新思路。

在AI技术日益普及的今天,如何平衡性能与成本成为关键挑战。DeepSeek的解决方案表明,通过重新思考AI模型处理信息的方式,我们可以在不牺牲性能的情况下显著降低计算需求。这种创新思维不仅对AI行业,对整个计算领域都具有启发意义。

随着技术的不断发展和完善,我们有理由期待稀疏注意力技术将为AI应用带来更广阔的发展空间,使更强大的AI服务能够以更低的成本惠及更多用户和行业。