KTransformers：清华开源的大语言模型推理优化框架，让AI触手可及

在人工智能领域，大语言模型（LLMs）正以惊人的速度发展，它们在文本生成、机器翻译、问答系统等任务中展现出卓越的能力。然而，这些模型的庞大规模也带来了巨大的挑战，尤其是在推理阶段。高昂的计算成本和硬件需求使得许多开发者和研究人员难以充分利用这些强大的工具。不过，清华大学KVCache.AI团队联合趋境科技推出的开源项目KTransformers，为解决这一难题带来了新的希望。

KTransformers：大语言模型推理优化的新选择

KTransformers是一个致力于优化大语言模型推理性能的框架，其目标是降低硬件门槛，使得更多的人能够参与到LLM的应用和研究中。该项目基于GPU/CPU异构计算策略，巧妙地利用了MoE（Mixture of Experts）架构的稀疏性，从而实现了在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版大模型。更令人印象深刻的是，KTransformers的预处理速度最高可达286 tokens/s，推理生成速度最高能达到14 tokens/s。

AI快讯

KTransformers的核心功能

KTransformers的强大之处在于其多方面的功能，这些功能共同作用，为用户提供了一个高效、灵活且易于使用的LLM推理优化方案。

超大模型本地推理

这是KTransformers最引人注目的特性之一。传统上，运行大型语言模型需要大量的计算资源和昂贵的硬件设备。KTransformers通过优化，使得在消费级硬件上运行超大模型成为可能。例如，它支持在仅24GB显存的单张显卡上运行DeepSeek-R1等671B参数的满血版大模型，极大地降低了硬件门槛。

显著提升推理速度

速度是推理性能的关键指标。KTransformers通过多种优化技术，显著提升了推理速度。其预处理速度最高可达286 tokens/s，推理生成速度达14 tokens/s。这意味着用户可以更快地获得结果，从而提高工作效率。

广泛的模型和算子兼容性

KTransformers具有良好的兼容性，支持DeepSeek系列及其他MoE架构模型。此外，它还提供了一个灵活的模板注入框架，允许用户切换量化策略和内核替换，以适应不同的优化需求。这种灵活性使得KTransformers能够应对各种不同的应用场景。

有效降低硬件门槛

KTransformers通过大幅降低大模型的显存需求，使得普通用户和中小团队也能在消费级硬件上运行千亿级参数模型，实现“家庭化”部署。这为更多的人参与到LLM的应用和研究中提供了机会。

强大支持长序列任务

对于需要处理长文本的任务，KTransformers也表现出色。它整合了Intel AMX指令集，使得CPU预填充速度可达286 tokens/s，相比传统方案快28倍。这意味着可以将长序列任务的处理时间从“分钟级”缩短到“秒级”。

KTransformers的技术原理

KTransformers之所以能够实现如此出色的性能，得益于其背后一系列精巧的技术设计。

MoE架构优化

MoE架构是一种稀疏激活的网络结构，它包含多个“专家”网络，每个专家网络负责处理一部分输入。KTransformers将稀疏的MoE矩阵卸载到CPU/DRAM上处理，而将稠密部分保留在GPU上，从而大幅降低了显存需求。

智能offload策略

KTransformers采用了一种基于计算强度的offload策略。它将任务分配到GPU和CPU，具体分配原则是：计算强度高的任务（如MLA算子）优先分配到GPU，而计算强度低的任务分配到CPU。这种策略能够充分利用异构计算资源，从而提高整体性能。

高性能算子优化

为了进一步提升性能，KTransformers对关键算子进行了优化。

CPU端优化： KTransformers使用llamafile作为CPU内核，并结合多线程、任务调度、负载均衡等优化技术，从而提升CPU推理效率。
GPU端优化： KTransformers引入了Marlin算子，专门优化量化矩阵计算。实验表明，相比传统库（如Torch），Marlin算子实现了3.87倍的加速效果。

CUDA Graph优化

CUDA Graph是一种能够将多个CUDA操作组合成一个图的技术。KTransformers基于CUDA Graph减少了Python调用开销，降低了CPU/GPU通信的断点，从而实现了高效的异构计算协同。每次decode仅需一个完整的CUDA Graph调用，这显著提升了推理性能。

量化与存储优化

为了进一步降低显存需求，KTransformers采用了4bit量化技术。这种技术能够有效地压缩模型存储需求，使得仅需24GB显存即可运行671B参数模型。此外，KTransformers还优化了KV缓存大小，从而减少了存储开销。

灵活的模板注入框架

KTransformers提供了一个基于YAML的模板注入框架，允许用户灵活切换量化策略、内核替换等优化方式，以适应不同场景的需求。这种灵活性使得用户能够根据自己的具体情况进行定制化优化。

KTransformers的应用场景

KTransformers的应用场景非常广泛，几乎涵盖了所有需要使用大语言模型的领域。

个人开发与中小团队

KTransformers使得个人开发者和中小团队能够在消费级硬件上运行大模型，进行文本生成、问答系统等开发，从而降低了成本。

长序列任务处理

对于需要处理长文本、代码分析等任务，KTransformers能够高效地完成，将处理时间从分钟级缩短到秒级。

企业级应用

企业可以将KTransformers用于本地部署大模型，用于智能客服、内容推荐等，从而节省云服务费用。

学术研究

KTransformers为研究人员提供了一个在普通硬件上探索和优化MoE架构模型的平台，从而加速了研究进程。

教育与培训

KTransformers可以作为教学工具，帮助学生实践大模型应用，理解优化技术。

结论

KTransformers的出现，无疑为大语言模型推理优化领域注入了新的活力。它通过一系列创新技术，降低了硬件门槛，提升了推理速度，使得更多的人能够参与到LLM的应用和研究中。随着KTransformers的不断发展和完善，我们有理由相信，它将在人工智能领域发挥越来越重要的作用。