当前位置: 首页 > news >正文

Auto-Encoder --李宏毅机器学习笔记

个人学习笔记,如有错误欢迎指正,也欢迎交流,其他笔记见个人空间 

Auto-Encoder 是什么?

Auto-Encoder(自编码器)是一种典型的 Self-Supervised Learning(自监督学习) 方法,具有以下结构和目标:

  • 结构:

    • 包含两个网络:EncoderDecoder

    • Encoder 将输入数据压缩为低维表示

    • Decoder ​从低维表示重建原始数据

  • 训练目标:

    • 最小化输入与输出之间的重建误差

    • 本质是“重建(Reconstruction)”,即让输出尽可能还原原始输入

  • 无需标签:

    • Auto-Encoder 只依赖无标签数据,典型的 Unsupervised Learning,属于 Pre-Training 方法的一种

与其他模型的比较与联系

  • 与 BERT、GPT 相比:BERT 做填空题、GPT 做文本续写,而 Auto-Encoder 做输入重建。尽管方式不同,但目标一致:从无标签数据中学习有效表示。

  • 与 CycleGAN 的“Cycle Consistency”思想类似:期望“原始 → 中间 → 重建”的结果与原始尽可能一致

Auto-Encoder的原理

  • 特征提取与降维(Dimension Reduction):

    • 将高维图像压缩成低维向量(如将 100x100 的图像 → 10维或100维向量)

例如下面这个图,对于影像来说并不是所有 3×3 的矩阵都是图片图片的变化其实是有限的,例如图片或许只是左对角线和左下方块组成。

  • 中间的低维表示即“瓶颈层(Bottleneck)”,是一种压缩/编码的过程
  • 用途:

    • 将低维向量用于分类、回归等下游任务

    • 训练少量数据时更高效,因为特征已被抽象化表达

De-noising Auto-Encoder 

  • 给原始输入加噪声,再训练 Auto-Encoder 恢复原始未扰动数据

  • 增强模型鲁棒性,强迫 Encoder 学会提取关键特征并忽略无关扰动

  • BERT 的做法非常类似,BERT 可看作文本的 De-noising Auto-Encoder

    • 如 BERT 的 Mask 操作就相当于对输入加噪声

其他作用

Feature Disentanglement(特征解纠缠)

核心概念:

  • Auto-Encoder 输出的向量(Code / Embedding)往往混合了多个因素,如内容、风格、身份等。

  • Feature Disentangle 旨在将不同类型的信息分开编码(如前50维表示“内容”,后50维表示“语者”)。

应用实例:Voice Conversion(语者转换)

  • 用于将一个人说话的“内容”用另一个人的“声音特征”说出来,这就是变声器。

优势:

  • 不再需要配对的训练数据(不同人说相同句子)。

  • 适用于语音、图像、文本的风格迁移、身份替换等任务。

Discrete Latent Representation(离散隐变量表示)

传统方式:Auto-Encoder 中的 Code 通常是连续的向量(如浮点数)。

新思路:尝试使用离散编码(如Binary或One-hot 向量),让模型的表示更具可解释性或可控性。

典型技术:VQ-VAE(Vector Quantized Variational Autoencoder)

  • 用离散 Codebook 替代连续向量。

  • Encoder 输出 → 与 Codebook 中的向量匹配 → Decoder 重建。

  • 类似 Self-Attention 中 Query 与 Key 匹配。

  • 可自动学出类似“音标单位”或图像“形状组件”等离散特征。

Text as Representation(用文字作为中间表达)

问题:向量不易解读,能否把中间表示变成“文字”?

方案:

  • 构建一个“Seq2seq Auto-Encoder”:将长文本编码为一句摘要,再还原为原文。

  • Encoder 输入长文,输出一段文字(摘要),Decoder 从这段文字还原原文。

挑战:

  • 模型可能发明“乱码密码”作为摘要,人类无法读懂。

解决方法:引入 Discriminator(判别器)

  • 判别器负责区分“人类写的句子”与“模型生成的句子”。

  • Encoder 需输出“人类可读的文字”,以欺骗判别器。

  • 使用强化学习(RL)优化训练过程。

Generator

  • 将 Decoder 独立出来使用,即变为一个生成器(类似 GAN 或 VAE)。

  • 从高斯分布中采样 latent 向量,丢入 Decoder,生成图像/语音。

 Compression(压缩编码)

  • Encoder → 将图像压缩为低维表示。

  • Decoder → 解压重建原图。

  • 属于 lossy 压缩(如 JPEG),可用于数据压缩场景。

Anomaly Detection(异常检测)

  • 应用场景:欺诈侦测、网络入侵检测、医学图像分析等。来了一笔新的资料它到底跟我们之前在训练资料裡面看过的资料,相不相似?看起来不像是训练资料裡面的 Data,就说它是异常的。

  • 流程:

    • 使用大量正常数据训练 Auto-Encoder。

    • 测试时比较输入与重建图像之间的误差(Reconstruction Loss)。

    • 大误差 → 异常小误差 → 正常

  • 适用于 One-Class Learning 问题:仅有正常样本,缺少异常样本。

相关文章:

  • 视觉算法+雾炮联动:开创智能降尘新时代
  • 基于unsloth微调大模型并上传到huggingface
  • zephyr RTOS 中 bt_le_adv_start函数的功能应用
  • 基础知识:离线安装docker、docker compose
  • Docker 代理配置全攻略:从入门到企业级实践
  • iOS设备文件管理实践
  • 【数据分享】1981-2024年全国各城市逐日、逐月、逐年平均气温(Shp格式)
  • 高性能内存kv数据库Redis
  • 个人博客系统
  • 【转载翻译】Open3D和PCL的一些比较
  • 如何协调跨部门资源争夺
  • 【KWDB 创作者计划】_产品技术解读_1
  • 谈谈 typescript 中 namespace 的理解
  • AQchat
  • Vite配置postcss-px-to-viewport
  • 代理模式简述
  • 贪心算法(19)(java)重构字符串
  • 银河麒麟系统添加开机自启动
  • 【AI】使用Huggingface模型实现文本内容摘要器
  • DeepSeek 接入 Word 完整教程
  • 2025中国互联网企业家座谈会在京召开
  • 多元布局、抱团取暖……上海虹口区召开外向型企业圆桌会议
  • 五一假期出行预订进入高潮:酒店搜索热度翻倍,“请4休11”拼假带动长线游
  • 报告:去年物业服务百强企业营业收入均值同比增长3.52%
  • 江西修水警方:一民房内发生刑案,犯罪嫌疑人已被抓获
  • TP-LINK4.36亿元竞得上海青浦徐泾办公地块,需引入全球领先的总部型企业