大模型微调 - 自注意力机制
一.什么是自注意力机制
注意力机制(Attention Mechanism)是一种能够根据输入的相关性动态分配权重的机制,广泛应用于自然语言处理、计算机视觉等领域。其核心思想是:“让模型在处理当前元素时,关注与其最相关的其他部分。”
二.自注意力机制如何工作
注意力机制三个核心向量:
- Query(查询向量)
- Key(键向量)
- Value(值向量)
I love my family
a b c d
来看这句话 ,每个单词下面都会有一个标签,拿 love 来说,love 既可以是动词也可以是名词,所以 love 表达的具体含义是与上下文相关的
要判断 love 与上下文中每个单词的关系就需要计算出 love 与 其他单词的权重关系
假设权重关系如下:
a->b: 15 %
b->b: 40 %
c->b: 20 %
d->b: 25 %
那么在当前层 b 的向量表示为:
0.15a + 0.4b + 0.2c + 0.25d
这一层最终的向量就是 love 这个单词在 整个上下文中的语义