当前位置: 首页 > news >正文

NLP高频面试题(五十)——大模型(LLMs)分词(Tokenizer)详解

在自然语言处理(NLP)任务中,将文本转换为模型可处理的数字序列是必不可少的一步。这一步通常称为分词(tokenization),即把原始文本拆分成一个个词元(token)。对于**大型语言模型(LLM,Large Language Model,大型语言模型)**而言,选择合适的分词方案至关重要:分词的质量直接影响模型的词汇表大小、表示能力以及对未知词汇的处理能力。

早期的做法是以“单词”为基本单位进行分词,即通过空格或规则将文本切分成独立的单词。但是纯单词级分词存在明显缺陷:**词汇表(vocabulary)可能非常庞大(尤其对多语言或大量专业术语的场景),这会导致模型参数量增加(每个词元对应的嵌入向量)且无法覆盖所有可能出现的单词。当模型遇到未登录词(OOV,Out-Of-Vocabulary)**时(即不在词汇表中的新词),传统处理方式只能将其标记为一个特殊的“未知”符号,完全丢失该词的信息。

另一种极端是字符级分词,即将每个字符作为基本词元。字符级方法将词汇表缩小到字母表大小(例如英语26个字母再加标点、空格等),从而彻底避免了

相关文章:

  • 【C++】Json-Rpc框架项目介绍(1)
  • Agent框架LangGraph:实现一个简单的Plan-and-Execute Agent
  • 电子电器架构 --- 面向下一代车辆的演进式(发展演变的)汽车网关
  • 仅追加KV数据库
  • 实验一 进程控制实验
  • 2023蓝帽杯初赛内存取证-4
  • NVIDIA 自动驾驶技术见解
  • 从零到多智能体:Google Agent开发套件(ADK)入门指南
  • C语言教程(十三):C 语言中 enum(枚举)的详细介绍
  • 武装Burp Suite工具:RouteVulScan插件_被动扫描发现漏洞.
  • shared_ptr八股收集 C++
  • SwiftInfer —— 大模型无限流式输入推理打破多轮对话长度限制
  • 【题解-Acwing】847. 图中点的层次
  • 双指针之有序数组的平方
  • 航电系统之自动控制系统篇
  • MulanPSL-1.0开源协议
  • 衡石ChatBI:依托开放架构构建技术驱动的差异化数据服务
  • 该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则,请按“取消(C)”按钮以防损坏解决方法
  • VSCode中安装GitGraph
  • 3.6/Q1,Charls数据库经典文章解读
  • A股三大股指涨跌互现:人形机器人产业链爆发,两市成交超1.2万亿元
  • 吉林省委原书记、吉林省人大常委会原主任何竹康逝世
  • 元宇宙之问|“AI+AR”融合或重新定义元宇宙发展路径
  • 解放日报:128岁的凤凰自行车“双轮驱动”逆风突围
  • 浙江桐乡征集涉企行政执法问题线索,含乱收费、乱罚款、乱检查等
  • 画廊主韦尔:是喜是伤的一生