当前位置：首页 > news >正文

大模型微调 - 自注意力机制

news 来源：原创 2025/4/26 1:48:05

一.什么是自注意力机制

注意力机制（Attention Mechanism）是一种能够根据输入的相关性动态分配权重的机制，广泛应用于自然语言处理、计算机视觉等领域。其核心思想是：“让模型在处理当前元素时，关注与其最相关的其他部分。”

二.自注意力机制如何工作

注意力机制三个核心向量：

Query（查询向量）
Key（键向量）
Value（值向量）

I love my family
a b c d

来看这句话，每个单词下面都会有一个标签，拿 love 来说，love 既可以是动词也可以是名词，所以 love 表达的具体含义是与上下文相关的

要判断 love 与上下文中每个单词的关系就需要计算出 love 与其他单词的权重关系
假设权重关系如下：
a->b: 15 %
b->b: 40 %
c->b: 20 %
d->b: 25 %
那么在当前层 b 的向量表示为：
0.15a + 0.4b + 0.2c + 0.25d
这一层最终的向量就是 love 这个单词在整个上下文中的语义

相关文章：

Doris表设计与分区策略：让海量数据管理更高效

contenthash 持久化缓存

使用Go语言实现轻量级消息队列

施工配电箱巡检二维码应用

verilog中实现单周期cpu的RVM指令（乘除取模）

线程池总结

匠心打造超级 ping，多运营商多协议全方位测试，sir.net 正式上线!

R7周：糖尿病预测模型优化探索

WebUI可视化：第6章：项目实战：智能问答系统开发

并发编程【深度解剖】

命名空间(C++)

RT Thread 发生异常时打印输出cpu寄存器信息和栈数据

Ubuntu系统下交叉编译iperf3

小白自学python第二天

面试之消息队列

全面认识Chroma 向量数据库中的索引和相似度

VS Code扩张安装目录

LLaMA3微调全流程：从LoRA到QLoRA，7B参数模型推理速度提升4倍的代码实战

C语言教程（十五）：C 语言函数指针与回调函数详解

差分对的返回电流-信号完整性分析

新华时评：坚定不移办好自己的事，着力抓好“四稳”

中青报：“猿辅导员工猝死”事件上热搜，是对健康职场环境的共同关切

美称中美贸易谈判仍在进行中，外交部：美方不要混淆视听

再放宽！新版市场准入负面清单发布，无人驾驶航空器、电子烟等新业态被纳入

读图丨漫游者秦龙，一生为经典画插图

开发国内首个泌尿专科智能体，医生们将临床经验转变为知识图谱