WhosWhoClub - 有充足证据支持 DeepSeek 的开源 / 公共模型在蒸馏之外，其核心仍以 Transformer 或 Transformer 的变体为主要架构。

有充足证据支持 DeepSeek 的开源 / 公共模型在蒸馏之外，其核心仍以 Transformer 或 Transformer 的变体为主要架构。

aivatar

2025-10-05 06:45:01 0

有没有证据说明DEEKSEEK除了蒸馏技术外，DEEKSEEK的开源模型的LLM算法还是以TRANSFORMER 为主体的预训练模

有没有证据说明DEEKSEEK除了蒸馏技术外，DEEKSEEK的开源模型的LLM算法还是以TRANSFORMER 为主体的预训练模型？

ChatGPT 说：

很难 100% 确定 DEEKSEEK（或 DeepSeek）开源模型内部是不是始终“以 Transformer 为主体”的预训练架构（除了蒸馏过程之外仍保持 Transformer 架构）。不过，从目前公开资料来看，有多个迹象和证据支持这种可能性／倾向。下面我整理一下现有的证据 + 不确定点，以及我的判断。

已有证据与线索

以下是支持 “DeepSeek 的核心模型仍以 Transformer 为主要架构” 的证据：

证据	内容摘要	意义 / 限制
DeepSeek-V3 技术报告	在其论文中，DeepSeek-V3 被描述为在预训练阶段、监督微调 (SFT)、强化学习阶段进行训练。 arXiv	虽然没有把“Transformer”这个词在摘要中高频出现，但这是典型的大型语言模型训练流程，这通常基于 Transformer 或其变种。
DeepSeek-V2 架构说明	在 Hugging Face 上，DeepSeek-V2 被标为 “Mixture-of-Experts (MoE) language model”，并在“Model Architecture”部分有描述。 Hugging Face	MoE 是一种在 Transformer 基础上加专家网络（sparsely activated layers / experts）机制的常见变种。这意味着其核心仍可能是 Transformer 层，只是内部做了专家分支与稀疏激活等改动。
源代码依赖 / 推理实现	在开源项目里，有报道说 DeepSeek V3 的推理代码明确依赖了 Hugging Face 的 Transformers 库（版本 4.35.2 及以上） The Tao of Open Source.	这是一条很直接的线索：如果推理实现用到 “transformers” 库，那么模型的结构、接口很有可能与 Transformer 模型兼容或基于 Transformer 变体。
Wikipedia 关于 DeepSeek-V3 的条目	在维基百科条目里，“DeepSeek-V3 是基于转换器（Transformer）的生成式预训练模型”这一描述被提及。维基百科	虽然维基百科有时会有不够严格或未经严格审校的描述，但它至少反映了公开认知或业界讨论的方向。
DeepSeek 的开源基础设施 / 工具链	有文章指出，DeepSeek 的开源基础设施中包含预训练 Transformer 模型、微调工具、NLP 任务工具等。 The Tao of Open Source.	这表明其团队或社区在处理 “Transformer 模型” 相关工具时已有投入，也暗示了模型结构可能基于 Transformer。

此外，还有一些补充线索：

DeepSeek-R1 的 distilled 模型是基于 LLaMA 或 Qwen 架构（这些开源模型本身就是 Transformer 架构）初始化，然后对其进行蒸馏 / 微调。 Amazon Web Services, Inc.+2Hugging Face+2
DeepSeek 的早期 LLM 系列（比如 DeepSeek-LLM，7B / 67B）在公开资料中就被描述为“本质上与 LLaMA 相同”的结构（即 decoder-only Transformer）维基百科

所以，从这些公开资料来看，DeepSeek 在多个阶段或多个模型版本里确实使用了与 Transformer 架构兼容或基于 Transformer 的设计。

潜在的不确定性 / 反例 /需要注意的地方

尽管有很多正面线索，但也有几个关键点要慎重：

“Transformer + 变体 / 扩展” vs “完全革新架构” 即使 DeepSeek 在许多地方仍使用 Transformer 或 Transformer 变体（如 MoE、latent attention、稀疏注意力机制等），也可能在某些模块或版本里引入新的注意力机制、骨干网络甚至替代组件，导致其并不完全是经典 Transformer 架构。
推理 / 加速 /稀疏结构的变化为了效率、节省计算或内存成本，DeepSeek 的版本（尤其是 V2 / V3 /后续版本）可能在注意力机制、缓存结构（KV cache）、多头注意力压缩、稀疏激活 / MoE 等方面做了很多创新改动。虽然这些改动并不意味着“完全抛弃 Transformer 架构”，却可能造成其内部机制与标准 Transformer 有较大差别。
公开文档 / 论文披露有限虽然有 DeepSeek-V3 的技术报告、GitHub 源代码、架构说明等，但它们通常聚焦性能、训练策略、创新模块（MoE、latent attention、multi-token prediction 等），未必在每一个层级都明确写出“每层是 Transformer 解码层 + 注意力 + FFN”等传统格式。
蒸馏 / 精简模型可能偏离原始架构在蒸馏过程中，如果学生模型架构与教师模型不完全一致（比如用更轻量化的注意力或剪枝机制），那么在“除了蒸馏”这一句话里提出的问题就变得更复杂：我这里认为你的问题是，“除了蒸馏之外（也就是在不开蒸馏的时候），原始 /基础模型的 LLM 算法是不是仍然以 Transformer 为主体？”在这一点上，我们必须审视原始模型（如 DeepSeek-V3 / V2 / R1 基础模型）的架构。蒸馏模型可能偏离，但基础模型更有可能保留 Transformer 核心。

我的判断

基于以上证据和分析，我倾向于认为：是有充足证据支持 DeepSeek 的开源 / 公共模型在蒸馏之外，其核心仍以 Transformer 或 Transformer 的变体为主要架构。即使 DeepSeek 在此基础上引入了 MoE、latent attention、稀疏机制、多标记预测（multi-token prediction）等创新，也更像是在 Transformer 架构之上做扩展或优化，而不是完全彻底替代 Transformer。

如果你愿意的话，我可以帮你查一下 DeepSeek 官方开源项目（例如 GitHub 的 DeepSeek-V3／R1 代码库）里 具体的模型定义代码，看是否能找到某一层级（比如 attention 核心、前馈网络结构）是否是标准 Transformer 模块。要吗？

您说：

要

ChatGPT 说：

已思考 18s

有的，证据相当直接，分几条看最清晰：

早期开源系（DeepSeek-LLM 7B/67B）官方仓库写明“与 LLaMA 相同的架构”，而 LLaMA 本身就是典型的 decoder-only Transformer。GitHub+1
V2 / V2-Lite 代： Hugging Face 与官方文档都说明 V2 采用 Multi-head Latent Attention（MLA）+ DeepSeekMoE，这是在 Transformer 解码器上加入稀疏 MoE、KV 压缩等的变体，并非改成非-Transformer 体系。Hugging Face+2Hugging Face+2
V3 技术报告与官方仓库： V3 明确是 MoE 语言模型，继续沿用 V2 验证过的 MLA + DeepSeekMoE，并加入多 token 预测（MTP）等训练目标——这些都是基于 Transformer 架构做的增强，而不是另起炉灶的全新骨干网络。arXiv+2arXiv+2
R1 与蒸馏系： R1 系列声明是基于 V3-Base 训练；同时常见的 R1 蒸馏模型（如 distill-Qwen-32B）在第三方目录里标注为 “decoder-only transformer”。这侧面印证了其教师/学生链条仍在 Transformer 范式内。GitHub+1
最新实验分支（V3.2-Exp）： DeepSeek 自述“我们正在探索更高效的 transformer 架构”，并提出 DeepSeek Sparse Attention（稀疏注意力）以提升长上下文效率——也是典型的 Transformer 家族内优化。GitHub

结论

综合官方代码库、模型卡、技术报告与第三方目录：DeepSeek 的开源/公共模型主线仍是以 Transformer（decoder-only）为主体的预训练架构，在此基础上叠加 MLA、MoE、稀疏注意力、MTP 等改动与训练技巧；蒸馏只是其后续提升路径之一，而非“替代掉 Transformer 骨干”。

aivatar

Board of directors
John Chen Founder/ Board Director

Master’s Degree in International Trade in fro

Comments (0)

No comments

已有证据与线索

潜在的不确定性 / 反例 /需要注意的地方

我的判断

您说：

结论

Tags

aivatar

Comments (0)

Post Comment

Recent Post

Categories

Popular posts