当前位置：首页 > news >正文

Transformer（李宏毅）

news 来源：原创 2025/4/20 8:13:48

目录

sequence to sequence `s model

Transformer`s Encoder ：

Transformer`s Decoder：

non-autoregressive（NAT）：

How Encoder TO Decoder？

Training：

sequence to sequence `s model

比如：语音辨识，输出长度由机器自己决定。

机器翻译：

NLP问题可以看成QA问题，QA问题可以用sequence to sequence的模型来解决。但是特质化模型可以得到更好的结果

。

Transformer`s Encoder ：

Encoder里面优惠很多Block，里面有很多Layer。

Transformer`s Decoder：

Decoder这里不能单纯的用Self-attention，要用Masked Self-attention，因为语音识别输出的结果是一个一个输出的，而Self-attention是一下子全部同时输出的，输出每个bi都考虑了全部的ai，使用Masked Self-attention，由于语音输入的时候时现有a1再有a2、a3... ...所以他输出 b1时只考虑a1，输出b2时考虑a1a2，输出b3时考虑a1a2a3... ...

Decoder还要自己识别输出的长度，要让他会输出一个特别的符号“断”，设置为END。输入机器学习语音，输出“BEGIN 机器学习 END”。

non-autoregressive（NAT）：

AT一个BEGIN，多次输入。NAT多个BEGIN，一次输入。

NAT怎么判断句子长度？

预测器、设置MAX长度

NAT好处

parallel, more stable generation

NAT is usually worse than AT (why? Multi-modality)

How Encoder TO Decoder？

kv（蓝色）来自Encoder

q（绿色）来自于Decoder。

Training：

有时候不需要生成什么，只需要复制什么东西，比如说人名。

比如说摘要，但是需要百万篇文章。基本上都是从原文里面复制一些东西。

Guided Attention：要求机器做attention的时候有固定的方式。比如说由左向右。

BeamSearch：假设世界上只有两个输出A和B，决定A还是B再放到input里面再进行输出

相关文章：

软件测试的页面交互标准：怎样有效提高易用性

Docker环境下自动续签Let’s Encrypt SSL证书

Alan AI - 面向Web的生成式AI SDK

[Windows] Wireshark 网络抓包工具 v4.4.6

React 第三十三节 ReactRouter 中 useSearchParams 使用详解及注意事项

Multi-Query Attention (MQA) PyTorch 实现

2. ubuntu20.04 和VS Code实现 ros的输出 (C++,Python）

JAVA设计模式——（1）适配器模式

.gitignore 可能失效的原因

在 Amazon Graviton 上运行大语言模型：CPU 推理性能实测与调优指南

XCVU13P-2FHGA2104I Xilinx Virtex UltraScale+ FPGA

基于LSTM-AutoEncoder的心电信号时间序列数据异常检测(PyTorch版)

简单代码应用

Linux（autoDL云服务器）mamba-ssm环境安装——一次成功！

【计算机网络 | 第二篇】常见的通信协议（一）

【HDFS入门】HDFS数据冗余与容错机制解析：如何保障大数据高可靠存储？

day29 学习笔记

洛谷题目：P8624 [蓝桥杯 2015 省 AB] 垒骰子题解（本题简）

linux kernel irq相关函数详解

系分架构论文《论高并发场景的架构设计和开发方法》

旧电梯换新如何分摊费用？低楼层可以不出钱吗？上海闵行举办讨论会

“80后”辽宁石油化工大学副校长杨占旭已任阜新市领导

行拘！如此引流诱导违法犯罪不该被纵容

纪念沈渭滨︱初五沈大大浓浓师生情

经济日报金观平：良好开局彰显经济韧性与潜力

敦煌网下载量爆增，创始人曾与雷军共同创业，近日推出“美国囤货促销”