当前位置: 首页 > news >正文

AI中Token的理解与使用总结

AI中Token的理解与使用总结

什么是Token

在AI领域,特别是自然语言处理(NLP)中,Token是指将文本分割成的最小处理单元。Tokenization(分词)是将原始文本分解为Token的过程。

Token的几种形式

  1. 单词级Token:以单词为基本单位

    • 示例:“Hello world” → [“Hello”, “world”]
  2. 子词级Token:平衡词汇表大小和表示效率

    • 示例:“unhappiness” → [“un”, “happiness”]
  3. 字符级Token:以单个字符为基本单位

    • 示例:“AI” → [“A”, “I”]

主流模型的Token使用

1. GPT系列 (OpenAI)

  • 使用**BPE(Byte Pair Encoding)**算法
  • 特点:
    • 英语文本通常1个token≈4个字符
    • 中文通常1个汉字≈1-2个token
    • 常见词汇通常为1个token
  • 典型模型的上下文窗口:
    • GPT-3.5: 4096 tokens
    • GPT-4: 32k tokens (部分版本)

</

相关文章:

  • 小集合 VS 大集合:MySQL 去重计数性能优化
  • 4月27日日记
  • fastapi【0基础学习之路(未学py版)】
  • 「Mac畅玩AIGC与多模态01」架构篇01 - 展示层到硬件层的架构总览
  • 函数式编程之 Optional
  • 秒杀压测计划 + Kafka 分区设计参考
  • 关于OCP认证:有Oracle和MySQL两种
  • Dart中的库 自定义库 系统库 第三方库
  • TV launcher官方下载-tv launcher汉化版-tv桌面启动器极简下载
  • 【二分查找】搜索插⼊位置(easy)
  • 设计模式全解析:23种经典设计模式及其应用
  • Redis的阻塞
  • MySQL 表的约束(一)
  • DeepSeek 多头潜在注意力(Multi-Head Latent Attention, MLA)技术
  • Linux——线程(2)线程互斥(锁)
  • Qt网络数据解析方法总结
  • HNUST湖南科技大学-嵌入式考试选择题题库(109道纠正详解版)
  • 【进程控制】
  • PAT第七题素数对猜想
  • (超级详细)发明专利撰写
  • 中消协发布“五一”消费提示:践行“光盘行动”,抵制餐饮浪费
  • 荣盛发展去年亏损约84.43亿元,要“过苦日子、紧日子”
  • 凝聚多方力量,中国农科院油菜产业专家团部署单产提升新任务
  • 乌称泽连斯基与特朗普进行简短会谈
  • 2025年上海空间信息大会举行,重大项目集中签约
  • 上海虹桥至福建三明直飞航线开通,飞行时间1小时40分