DeepSeek-V3:6710亿参数开源模型,AGI探索的新里程碑

2

2024年岁末,DeepSeek震撼发布了其最新一代大型语言模型——DeepSeek-V3。这不仅仅是DeepSeek在探索通用人工智能(AGI)道路上的又一关键里程碑,更再次确立了其在开源AI领域的领军地位。短短数月,DeepSeek完成了从V2.5的通用与代码能力融合到V3的全面性能飞跃,这背后蕴藏着怎样的技术突破和战略思考?

DeepSeek里程碑

DeepSeek的初心:探索AGI的本质

DeepSeek始终秉持着“投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题”的理念。这种长期主义的追求,驱动着DeepSeek在技术研发上不断突破。从V2.5的通用与代码能力融合,到V3的全面性能提升,每一步都彰显了其对技术创新的执着。DeepSeek的愿景并非仅仅是构建一个强大的AI模型,而是真正理解并实现通用人工智能,这需要对AI的底层逻辑和发展方向有深刻的洞察。

从V2.5到V3:性能的全面飞跃

DeepSeek-V3是一款拥有惊人6710亿参数的混合专家模型(MoE),激活370亿参数,并基于14.8T token的庞大数据集进行预训练。这种规模的模型设计,旨在模拟人脑的复杂结构,从而实现更高级的智能功能。与V2.5相比,V3的生成速度提升了3倍,从20TPS跃升至60TPS。这意味着用户可以更快地获得AI的响应,极大地提升了使用体验。这种速度的提升,得益于DeepSeek在模型架构和训练方法上的创新。

回复速度

在性能方面,DeepSeek-V3在多项基准测试中超越了Qwen2.5-72B和Llama-3.1-405B等一众开源模型,并与GPT-4和Claude-3.5-Sonnet等顶尖闭源模型不相上下。尤其在数学、代码和中文任务上,V3表现尤为突出,成为当前最强的开源模型。这意味着DeepSeek-V3不仅在通用能力上表现出色,还在特定领域具有更强的专业性。这种卓越的性能,使得DeepSeek-V3在各种实际应用中都能发挥重要作用。

模型基准测试

技术创新:高效训练与推理

DeepSeek-V3采用了多项创新技术,包括多头潜在注意力(MLA)架构、无辅助损失的负载均衡策略以及多token预测(MTP)目标。这些技术不仅提升了模型的推理效率,还大幅降低了训练成本。MLA架构允许模型在处理信息时更加关注重要的部分,从而提高效率。无辅助损失的负载均衡策略,则确保了模型的各个部分都能得到充分的训练,避免出现性能瓶颈。MTP目标则让模型能够一次性预测多个token,进一步提升了生成速度。令人瞩目的是,V3的整个训练过程仅耗费了278.8万H800 GPU小时,总成本约为557.6万美元,远低于其他前沿大模型。这表明DeepSeek在模型训练方面具有卓越的效率和成本控制能力。

API服务:价格调整与优惠

随着V3的发布,DeepSeek调整了API服务价格。在优惠期内(即日起至2025年2月8日),API价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。优惠期结束后,价格将恢复至每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。这种定价策略旨在吸引更多的开发者使用DeepSeek-V3,并推动其在各个领域的应用。

时期 Token类型 缓存命中 缓存未命中
优惠期内(至2025年2月8日) 输入tokens(每百万) ¥0.1 ¥1
输出tokens(每百万) ¥2 ¥2
优惠期后 输入tokens(每百万) ¥0.5 ¥2
输出tokens(每百万) ¥8 ¥8

应用场景:多轮对话与功能调用

DeepSeek-V3支持多轮对话、对话前缀续写、FIM补全、JSON输出及Function Calling等功能。这些功能在以下场景中具有广泛应用:

  • 多轮对话:适用于客服、教育等需要连续交互的场景。在这些场景中,AI需要能够理解用户的意图,并根据上下文进行回复。DeepSeek-V3的多轮对话能力,使得AI能够更好地完成这些任务。
  • 对话前缀续写:用于文本生成、创作辅助等任务。这种功能可以帮助用户快速生成文章、故事等文本内容,极大地提升了创作效率。
  • FIM补全:在代码生成和文本补全中表现优异。FIM(Fill In Middle)补全技术,可以让AI根据已有的代码或文本,自动补全缺失的部分。这在代码编写和文本编辑中非常有用。
  • JSON输出与Function Calling:为开发者提供了灵活的接口调用方式,适用于自动化任务和复杂逻辑处理。JSON输出可以让AI以结构化的方式返回数据,方便开发者进行处理。Function Calling则允许AI调用外部函数,从而实现更复杂的功能。

开源与社区支持

DeepSeek-V3不仅开源了原生FP8权重,还提供了BF16转换脚本,方便社区适配和应用。SGLang、LMDeploy、TensorRT-LLM等工具已支持V3模型推理,进一步降低了用户的使用门槛。这种开源策略,旨在吸引更多的开发者参与到DeepSeek-V3的生态建设中来,共同推动AI技术的发展。

DeepSeek-V3的实际应用

1. 官方对话平台体验

DeepSeek-V3对话已在官网上线,用户可以通过chat.deepseek.com直接体验。这个平台提供了一个方便快捷的方式,让用户可以亲身体验DeepSeek-V3的强大功能。

在线免费使用

2. API能力与开发接入

DeepSeek API 接口,支持以下功能:

  • 多轮对话能力
  • 对话前缀续写(Beta)
  • FIM(Fill In Middle)补全
  • 结构化输出 JSON output
  • 多语言支持

开发者可以通过API文档了解详细的接入方式和示例代码:api-docs.deepseek.com。DeepSeek API为开发者提供了一个灵活的方式,可以将DeepSeek-V3的功能集成到自己的应用中。

DeepSeek-V3的发布,无疑为人工智能领域注入了新的活力。它不仅在技术上取得了显著的突破,还在开源和社区支持方面做出了积极的贡献。DeepSeek的长期主义精神和对AGI本质的探索,值得我们敬佩和学习。

随着人工智能技术的不断发展,我们有理由相信,DeepSeek将会在未来的AGI探索道路上取得更大的成就,为人类带来更多的福祉。