当前位置: 首页 > news >正文

【文本】词嵌入经典模型:从one-hot到BERT

【文本】词嵌入经典模型:从one-hot到BERT

one-hot编码(独热编码):

  • 根据词表的所有词构建一个向量特征。每一个文段中每个单词有一个词向量(二进制且只有一位为1) — 稀疏、缺乏语义(father&mother;like&love)

word2vec编码:

  • 原则:“一个词被周围的词所代表”
    • 有两种模型:CBOW(Continuous Bag of Words) 上下文单词预测目标单词(完形填空)Skip-Gram 目标单词预测上下文单词(造句),中心词可替换,上下文不变,那就是相似的词
  • 步骤:
    • 随机初始化向量表示,经历无数次训练(如下)
    • 正样本:-(正向传播)将中心词和上下文两个词向量输入神经网络,模型中输出的是“是否为上下文的概率”-(反向传播)概率不符合实际(损失函数大),则更新神经网络模型的参数(根据梯度调整权重),以及两个词的向量表达,使得下次预测更接近于1(学到了中心词的语义)
    • 负样本:使其概率更接近0
  • — 确乏全文信息;无法解决一词多义

Bert模型

  • Bert模型基于transformer架构,加入句向量(解决全文信息),可以处理一词多义
  • 苹果(中心词)的语义信息,由句子内所有上下文的单词有关,整个句子信息都要混入当前单词中(self-attention,用文本中的更多上下词,增加目标此语义,中心词语义=∑所有词*权重,权重由模型训练)
  • — 考虑完形填空(MLM任务),在训练时随机替换句子中一些词为mask。一个单词被mask掉后,根据句子中其他词的语义中混合的信息,反向猜出被mask的词,输出的mask词预测是一个概率分布,表示每个单词被成功预测的概率,目标是向1训练(减少损失函数);没有负样本训练。
  • — 考虑续写(NSP任务),即句子间训练(模型接收一对句子,判断第二个句子是否是第一个句子的下一句),帮助理解句子间逻辑
    • — CLS特殊符号,排入开头位值,但是没有自己语义(所以能够表示整个句子信息—存在争议)

相关文章:

  • 最优化方法-牛顿法
  • 专题--Kafka
  • ML.NET库学习012:电力计量数据异常检测项目解析
  • 函数执行中的栈和寄存器调用
  • SpringAI系列 - ToolCalling篇(二) - 如何设置应用侧工具参数ToolContext(有坑)
  • 【操作幂等和数据一致性】保障业务在MySQL和COS对象存储的一致
  • 大白话实战Gateway
  • 如何优化企业网络架构以提高性能和安全性?
  • Mac 清理缓存,提高内存空间
  • VTK 距离可视化 PolyDataDistance DistancePolyDataFilter
  • 使用 FFmpeg 剪辑视频指南
  • 分布式光纤声波振动技术在钻井泄漏检测中的应用
  • 【UCB CS 61B SP24】Lecture 4 - Lists 2: SLLists学习笔记
  • 在PyCharm中运行Jupyter Notebook的.ipynb文件及其pycharm软件的基础使用
  • 前端循环全解析:JS/ES/TS 循环写法与实战示例
  • windows解压多个文件夹内的zip文件脚本
  • 计算机三级网络技术知识汇总【4】
  • 1005 K 次取反后最大化的数组和(贪心)
  • Electron通过ffi-napi调用dll导出接口
  • MacOS安装Emacs
  • 南方医科大学原副校长宁习洲主动投案,接受审查调查
  • 詹妮弗·劳伦斯、罗伯特·帕丁森新片入围戛纳主竞赛单元
  • 驯服象牙塔:美国政府对大学的战争是一场善恶对抗吗
  • 洛阳白马寺的墓主人是狄仁杰?其实这个误解从北宋就开始了
  • 研讨会|中国古代石刻与历史研究的多重图景
  • 巴基斯坦航天员选拔工作正在进行,1人将以载荷专家身份参加联合飞行