AI中Token的理解与使用总结
AI中Token的理解与使用总结
什么是Token
在AI领域,特别是自然语言处理(NLP)中,Token是指将文本分割成的最小处理单元。Tokenization(分词)是将原始文本分解为Token的过程。
Token的几种形式
-
单词级Token:以单词为基本单位
- 示例:“Hello world” → [“Hello”, “world”]
-
子词级Token:平衡词汇表大小和表示效率
- 示例:“unhappiness” → [“un”, “happiness”]
-
字符级Token:以单个字符为基本单位
- 示例:“AI” → [“A”, “I”]
主流模型的Token使用
1. GPT系列 (OpenAI)
- 使用**BPE(Byte Pair Encoding)**算法
- 特点:
- 英语文本通常1个token≈4个字符
- 中文通常1个汉字≈1-2个token
- 常见词汇通常为1个token
- 典型模型的上下文窗口:
- GPT-3.5: 4096 tokens
- GPT-4: 32k tokens (部分版本)