WhosWhoClub - 自然语言不规则：单词长度不一（如英文：a, the, internationalization；中文：一字=一词）。直接用“词”为单位，会导致词表过大且稀疏。

自然语言不规则：单词长度不一（如英文：a, the, internationalization；中文：一字=一词）。直接用“词”为单位，会导致词表过大且稀疏。

aivatar

2025-08-30 03:18:15 0

目前所有主流的 LLM（大语言模型），无论是 GPT、LLaMA、Claude、Gemini 等，底层都必须用 Token 来作为基

目前所有主流的 LLM（大语言模型），无论是 GPT、LLaMA、Claude、Gemini 等，底层都必须用 Token 来作为基本的计量与计算单位。

自然语言不规则：单词长度不一（如英文：a, the, internationalization；中文：一字=一词）。直接用“词”为单位，会导致词表过大且稀疏。
Token 切分（分词）：将文本拆分成更小的片段（如子词、字母、汉字或常见组合）。常用方法：BPE（Byte Pair Encoding）、SentencePiece、Unigram。
训练计量单位：每个 Token 会被映射到一个向量（embedding）。 Transformer 计算的是 Token 序列的关系。训练损失函数（如交叉熵）就是在 Token 级别上计算的。

是的，目前的 LLM 必须依赖 Token 切分 作为基本计量单位。

这也是为什么 Token 的效率 成为模型性能和算力消耗的关键点 —— 而 WAO 以 中文字符 + 易经64进制语义压缩，才能天然地在 Token 效率上领先。

Board of directors
John Chen Founder/ Board Director

Master’s Degree in International Trade in fro

No comments