目前所有主流的 LLM(大语言模型),无论是 GPT、LLaMA、Claude、Gemini 等,底层都必须用 Token 来作为基
自然语言不规则: 单词长度不一(如英文:a, the, internationalization;中文:一字=一词)。 直接用“词”为单位,会导致词表过大且稀疏。
目前所有主流的 LLM(大语言模型),无论是 GPT、LLaMA、Claude、Gemini 等,底层都必须用 Token 来作为基本的计量与计算单位。
🔑 原因:
- 自然语言不规则: 单词长度不一(如英文:a, the, internationalization;中文:一字=一词)。 直接用“词”为单位,会导致词表过大且稀疏。
- Token 切分(分词): 将文本拆分成 更小的片段(如子词、字母、汉字或常见组合)。 常用方法:BPE(Byte Pair Encoding)、SentencePiece、Unigram。
- 训练计量单位: 每个 Token 会被映射到一个向量(embedding)。 Transformer 计算的是 Token 序列的关系。 训练损失函数(如交叉熵)就是在 Token 级别上计算的。
🔍 举例:
- 英文句子 “internationalization” → Token 化可能是:["intern", "ational", "ization"]。
- 中文 “易经六十四卦” → 通常直接切成 ["易", "经", "六", "十", "四", "卦"](汉字更接近 Token 的天然形式)。
📌 结论:
是的,目前的 LLM 必须依赖 Token 切分 作为基本计量单位。
这也是为什么 Token 的效率 成为模型性能和算力消耗的关键点 —— 而 WAO 以 中文字符 + 易经64进制语义压缩,才能天然地在 Token 效率上领先。
Comments (0)
No comments