有没有证据说明DEEKSEEK除了蒸馏技术外,DEEKSEEK的开源模型的LLM算法还是以TRANSFORMER 为主体的预训练模型?
ChatGPT 说:
很难 100% 确定 DEEKSEEK(或 DeepSeek)开源模型内部是不是始终“以 Transformer 为主体”的预训练架构(除了蒸馏过程之外仍保持 Transformer 架构)。不过,从目前公开资料来看,有多个迹象和证据支持这种可能性/倾向。下面我整理一下现有的证据 + 不确定点,以及我的判断。
已有证据与线索
以下是支持 “DeepSeek 的核心模型仍以 Transformer 为主要架构” 的证据:
| 证据 | 内容摘要 | 意义 / 限制 | 
|---|---|---|
| DeepSeek-V3 技术报告 | 在其论文中,DeepSeek-V3 被描述为在预训练阶段、监督微调 (SFT)、强化学习阶段进行训练。 arXiv | 虽然没有把“Transformer”这个词在摘要中高频出现,但这是典型的大型语言模型训练流程,这通常基于 Transformer 或其变种。 | 
| DeepSeek-V2 架构说明 | 在 Hugging Face 上,DeepSeek-V2 被标为 “Mixture-of-Experts (MoE) language model”,并在“Model Architecture”部分有描述。 Hugging Face | MoE 是一种在 Transformer 基础上加专家网络(sparsely activated layers / experts)机制的常见变种。这意味着其核心仍可能是 Transformer 层,只是内部做了专家分支与稀疏激活等改动。 | 
| 源代码依赖 / 推理实现 | 在开源项目里,有报道说 DeepSeek V3 的推理代码明确依赖了 Hugging Face 的 Transformers 库(版本 4.35.2 及以上) The Tao of Open Source. | 这是一条很直接的线索:如果推理实现用到 “transformers” 库,那么模型的结构、接口很有可能与 Transformer 模型兼容或基于 Transformer 变体。 | 
| Wikipedia 关于 DeepSeek-V3 的条目 | 在维基百科条目里,“DeepSeek-V3 是基于转换器(Transformer)的生成式预训练模型”这一描述被提及。 维基百科 | 虽然维基百科有时会有不够严格或未经严格审校的描述,但它至少反映了公开认知或业界讨论的方向。 | 
| DeepSeek 的开源基础设施 / 工具链 | 有文章指出,DeepSeek 的开源基础设施中包含预训练 Transformer 模型、微调工具、NLP 任务工具等。 The Tao of Open Source. | 这表明其团队或社区在处理 “Transformer 模型” 相关工具时已有投入,也暗示了模型结构可能基于 Transformer。 | 
此外,还有一些补充线索:
- DeepSeek-R1 的 distilled 模型是基于 LLaMA 或 Qwen 架构(这些开源模型本身就是 Transformer 架构)初始化,然后对其进行蒸馏 / 微调。 Amazon Web Services, Inc.+2Hugging Face+2
 - DeepSeek 的早期 LLM 系列(比如 DeepSeek-LLM,7B / 67B)在公开资料中就被描述为“本质上与 LLaMA 相同”的结构(即 decoder-only Transformer) 维基百科
 
所以,从这些公开资料来看,DeepSeek 在多个阶段或多个模型版本里确实使用了与 Transformer 架构兼容或基于 Transformer 的设计。
潜在的不确定性 / 反例 /需要注意的地方
尽管有很多正面线索,但也有几个关键点要慎重:
- “Transformer + 变体 / 扩展” vs “完全革新架构” 即使 DeepSeek 在许多地方仍使用 Transformer 或 Transformer 变体(如 MoE、latent attention、稀疏注意力机制等),也可能在某些模块或版本里引入新的注意力机制、骨干网络甚至替代组件,导致其并不完全是经典 Transformer 架构。
 - 推理 / 加速 /稀疏结构的变化 为了效率、节省计算或内存成本,DeepSeek 的版本(尤其是 V2 / V3 /后续版本)可能在注意力机制、缓存结构(KV cache)、多头注意力压缩、稀疏激活 / MoE 等方面做了很多创新改动。虽然这些改动并不意味着“完全抛弃 Transformer 架构”,却可能造成其内部机制与标准 Transformer 有较大差别。
 - 公开文档 / 论文披露有限 虽然有 DeepSeek-V3 的技术报告、GitHub 源代码、架构说明等,但它们通常聚焦性能、训练策略、创新模块(MoE、latent attention、multi-token prediction 等),未必在每一个层级都明确写出“每层是 Transformer 解码层 + 注意力 + FFN”等传统格式。
 - 蒸馏 / 精简模型可能偏离原始架构 在蒸馏过程中,如果学生模型架构与教师模型不完全一致(比如用更轻量化的注意力或剪枝机制),那么在“除了蒸馏”这一句话里提出的问题就变得更复杂:我这里认为你的问题是,“除了蒸馏之外(也就是在不开蒸馏的时候),原始 /基础模型的 LLM 算法是不是仍然以 Transformer 为主体?”在这一点上,我们必须审视原始模型(如 DeepSeek-V3 / V2 / R1 基础模型)的架构。蒸馏模型可能偏离,但基础模型更有可能保留 Transformer 核心。
 
我的判断
基于以上证据和分析,我倾向于认为:是有充足证据支持 DeepSeek 的开源 / 公共模型在蒸馏之外,其核心仍以 Transformer 或 Transformer 的变体为主要架构。即使 DeepSeek 在此基础上引入了 MoE、latent attention、稀疏机制、多标记预测(multi-token prediction)等创新,也更像是在 Transformer 架构之上做扩展或优化,而不是完全彻底替代 Transformer。
如果你愿意的话,我可以帮你查一下 DeepSeek 官方开源项目(例如 GitHub 的 DeepSeek-V3/R1 代码库)里 具体的模型定义代码,看是否能找到某一层级(比如 attention 核心、前馈网络结构)是否是标准 Transformer 模块。要吗?
您说:
要
ChatGPT 说:
已思考 18s
有的,证据相当直接,分几条看最清晰:
- 早期开源系(DeepSeek-LLM 7B/67B) 官方仓库写明“与 LLaMA 相同的架构”,而 LLaMA 本身就是典型的 decoder-only Transformer。GitHub+1
 - V2 / V2-Lite 代: Hugging Face 与官方文档都说明 V2 采用 Multi-head Latent Attention(MLA)+ DeepSeekMoE,这是在 Transformer 解码器上加入稀疏 MoE、KV 压缩等的变体,并非改成非-Transformer 体系。Hugging Face+2Hugging Face+2
 - V3 技术报告与官方仓库: V3 明确是 MoE 语言模型,继续沿用 V2 验证过的 MLA + DeepSeekMoE,并加入多 token 预测(MTP)等训练目标——这些都是基于 Transformer 架构做的增强,而不是另起炉灶的全新骨干网络。arXiv+2arXiv+2
 - R1 与蒸馏系: R1 系列声明是基于 V3-Base 训练;同时常见的 R1 蒸馏模型(如 distill-Qwen-32B)在第三方目录里标注为 “decoder-only transformer”。这侧面印证了其教师/学生链条仍在 Transformer 范式内。GitHub+1
 - 最新实验分支(V3.2-Exp): DeepSeek 自述“我们正在探索更高效的 transformer 架构”,并提出 DeepSeek Sparse Attention(稀疏注意力)以提升长上下文效率——也是典型的 Transformer 家族内优化。GitHub
 
结论
综合官方代码库、模型卡、技术报告与第三方目录:DeepSeek 的开源/公共模型主线仍是以 Transformer(decoder-only)为主体的预训练架构,在此基础上叠加 MLA、MoE、稀疏注意力、MTP 等改动与训练技巧;蒸馏只是其后续提升路径之一,而非“替代掉 Transformer 骨干”。
                    
Comments (0)
No comments