当前位置: 首页 > news >正文

自注意力机制self-attention

目录

简介:

输入和输出方式:

Sequence Labeling:

self-attention运作方式:

一:怎么从vector得到b1

二:利用矩阵的方法怎么得到

Multi-head Self-attention:

positional encoding:位置编码

Self-attention的应用:

Self-attention 与 CNN的差别和相同点:

Self-attention 与 RNN的差别和相同点:


简介:

         Sophisticated Input之前的输入一个向量输出一个数值,如果输入很复杂,比如输入的是一个句子,每个文字是一个向量表示的,那么每一次输入的都是未知长度的向量组。(用一个很长的向量表示每一个中文的汉字,n个维度向量可以表示2的n次方个汉字),一段音频可以看成一组向量。

输入和输出方式:

Sequence Labeling:

        词性标注:I saw a saw。我看到一把锯子。saw做了动词也做了名词。如果只是单个的词语考虑,会分辨不出来,这里要考虑一整个句子,self-attention就是考虑整个句子,然后把输入向量转变为输出向量,并且输入几个就会输出几个。

self-attention运作方式:

一:怎么从vector得到b1

        输入一排a向量输出一排b,a和b的数量相等,而且每个b都要考虑全部的a,生成b1时要考虑a1与全部其他的a向量,计算关联程度记作attention score(关联分数),方式如下。

现在已经计算出来了每个向量与a1的关联性。

二:利用矩阵的方法怎么得到

        a1....a4每一个a都要得到qkv,每一个a都乘一个Wq得到q

那么可以直接把a1a2a3a4看成一个矩阵乘Wq,直接得到q1q2q3q4。

kv同理

那么计算q1的α11,α12,α13,α14可以看成k1234×q1的矩阵。

 

计算q2q3q4的时候同理。

即A=K转制×Q,A进行softmax得到A`

那么b1即等于:

        I为input乘上Wq、Wk、Wv得到Q、K、V,K的转制乘Q得到A,A进行softmax得到A`(Attention Matrix)。V乘A`得到了O,O即为self-attention的输出。

        只有Wq、Wk、Wv是未知的,需要根据训练资料找出来。

Multi-head Self-attention:

        相关这个事有很多种形式很多种定义,不能只有一个q,应该有多个q'来描述“相关”。

positional encoding:位置编码

        self-attention少了一个很重要的信息,即位置的信息,如果是输入一段原始数据是句子的向量,那么每个向量的位置表示输入的句子中每个词语的位置,这个位置信息很重要。

        positional encoding为每个位置设定一个vector,记作ei,加到ai上面,

Self-attention的应用:

NLP、Transformer、BERT、语音识别、影像... ...

        语音识别上,语音的Attention Matrix会非常大,可以用到Truncated Self-attention,他的作用是在做语音识别的时候,不要看一整句话,只看一个小部分即可。这个部分的大小由人设定

        影像上,长宽和RGB,可以把同一个长宽处的RGB看成一个向量。那么这个5×10的图片可以看成5×10个三维的向量。

Self-attention 与 CNN的差别和相同点:

        CNN是简化版的Self-attention,CNN只考虑receptive file里面的信息,而在做Self-attention的时候,考虑整张图片的信息。

随着资料量越来越多,Self-attention的结果越来越好,在资料量足够大的时候,Self-attention可以超过CNN。但是资料量少的时候,CNN是好于Self-attention的,原因是:Self-attention弹性大,需要更多的资料训练,训练资料少的时候会overfitting,CNN弹性小,资料少的时候就可以训练好。

Self-attention 与 RNN的差别和相同点:

RNN:recurrent neural network循环神经网络,输入一个序列。

RNN不能平行处理,Self-attention可以平行处理,效率更高。

相关文章:

  • C++智能指针的知识!
  • 【HDFS入门】联邦机制(Federation)与扩展性:HDFS NameNode水平扩展深度解析
  • Ubuntu命令速查
  • Linux 文件查找终极指南:find, locate, grep 等命令详解
  • 原型模式详解及在自动驾驶场景代码示例(c++代码实现)
  • Flash存储器(一):接口标准全解析
  • z-library电子图书馆最新地址的查询方法
  • 多肽 N 端乙酰化有什么作用?
  • java八股之并发编程
  • 4月18日复盘
  • 定时器复习DSP【2025/4/18】
  • datasheet数据手册-阅读方法
  • MMAction2安装
  • Docker安装hoppscotch
  • 什么是MMOE?
  • 【统计显著性检验】
  • 考研单词笔记 2025.04.18
  • openEuler系统下源码编译安装Nginx实践教程
  • 关于GPU的涡轮散热与被动散热
  • Fastapi 日志处理
  • 6万余采购商消博会上“扫货”,全球好物“购物车”满载而归
  • 寺庙餐饮,被年轻人追捧成新顶流
  • 广西京族人的“高跷捞虾”:以前老辈个个都会,现在展演收入赶得上真捕鱼
  • 信心从何而来|楼市回稳的最新迹象
  • 白鹿、欧豪谈《北上》:把运河的故事续写下去
  • 著名演员童正维逝世,系《编辑部的故事》牛大姐扮演者