表示学习与部分域适应
表示学习(Representation Learning)
表示学习是机器学习的一个分支,旨在自动从原始数据中提取有意义的特征或表示,使得这些表示更适合后续任务(如分类、检测、回归等)。其核心思想是将高维、复杂、冗余的原始数据转换为低维、紧凑且信息丰富的表示,从而提升模型的性能和泛化能力。
表示学习的核心是让机器自动发现数据中的有用模式,而不是依赖人工设计特征。
1. 表示学习的核心目标
-
降维:减少数据的维度,去除冗余和噪声。
-
特征提取:自动发现数据中的关键模式(如PPG信号中的心率特征)。
-
泛化能力:学习到的表示应适用于不同任务(如异常检测、生物识别)。
-
无监督/自监督学习:不依赖人工标注数据,直接从数据本身学习。
2. 表示学习的常见方法
(1) 自编码器(Autoencoder, AE)
-
结构:编码器(Encoder)将输入压缩为低维表示,解码器(Decoder)尝试重建原始数据。
-
目标:最小化重建误差,使编码后的表示保留关键信息。
-
适用场景:图像、信号的压缩和去噪。
(2) 对比学习(Contrastive Learning)
-
核心思想:让相似样本的表示接近,不相似样本的表示远离。
-
典型方法:SimCLR、MoCo(常用于图像和时序数据)。
-
适用场景:无监督分类、异常检测。
(3) 变换分类学习(Transformation Classification)
-
论文方法:让模型区分原始数据和其变换版本(如时间反转、幅度反转)。
-
优点:无需标注数据,自动学习鲁棒表示。
(4) 主成分分析(PCA)
-
线性降维方法:找到数据方差最大的方向(主成分)。
-
适用场景:数据可视化、去噪、预处理。
1. 什么是部分域适应(PDA)?
核心问题
-
传统域适应:假设源域和目标域的标签空间完全相同(例如源域和目标域都有“猫、狗”两类)。
-
现实场景:目标域的标签空间可能是源域的子集(例如源域有“猫、狗、鸟”,但目标域只有“猫、狗”)。
-
直接迁移会导致负迁移:源域中“鸟”类数据会干扰目标域的模型性能。
-
PDA的目标
在源域标签空间包含目标域标签空间的情况下,筛选出源域中与目标域相关的数据,忽略无关数据。
2. 分类PDA的实现方法
分类PDA通常通过类级权重(Class-level Weighting)实现,步骤如下:
(1) 判断哪些类别属于目标域
-
利用目标域的无标签数据,通过分类器预测其类别分布。
-
例如:目标域预测结果中“猫、狗”类概率高,“鸟”类概率低 → 认为目标域不存在“鸟”类。
-
(2) 为源域数据分配权重
-
权重规则:
wc={1如果类别c在目标域中存在0否则wc={10如果类别c在目标域中存在否则-
保留源域中“猫、狗”类数据,丢弃“鸟”类数据。
-
(3) 训练模型
-
使用加权后的源域数据(仅相关类别)训练模型,适配目标域。