当前位置: 首页 > news >正文

【漫话机器学习系列】210.标准化(Standardization)

标准化(Standardization):深入理解数据预处理中的常用技术

在数据科学与机器学习的实践中,标准化(Standardization)是一项极为常见且重要的预处理操作。它可以显著提升模型训练的效率与效果,尤其是在涉及距离计算(如KNN、SVM)或梯度下降的算法中。本文将通过图示公式,深入剖析标准化的定义、计算方法及其应用背景。


什么是标准化?

标准化,也称为 Z-score 归一化,是一种将特征值转换为标准正态分布的方法。标准化后的数据其均值为 0标准差为 1,这意味着数据被“平移”到以 0 为中心,并根据原始分布的离散程度“压缩或拉伸”。


标准化的公式

如下图所示,标准化的数学表达式为:

其中各符号含义为:

  • :标准化后的第 iii 个特征值(橙色注释)

  • ​:原始第 iii 个观察值(绿色注释)

  • :特征向量的平均值(红色注释)

  • :特征向量的标准差(蓝色注释)


如何理解标准化?

标准化的核心思想是“去除位置偏移与量纲影响”。对于不同量纲或尺度的数据(如身高与收入),如果不进行标准化直接输入模型,可能会导致模型更关注数值大的特征,忽略本身重要性相当但数值较小的特征。

通过标准化,我们将每一个样本的特征值减去该特征的平均值,然后除以标准差,从而实现单位标准化。这个处理过程的结果是:

  • 标准化后的数据 均值为 0

  • 标准化后的数据 标准差为 1

  • 标准化后的数据符合标准正态分布(或接近)


为什么要进行标准化?

以下几种情况特别推荐使用标准化:

  1. 不同量纲的特征同时存在
    例如:房价预测模型中同时包含“面积(平方米)”与“房间数(个)”。

  2. 需要计算欧几里得距离或点积的模型
    例如:KNN、KMeans、SVM、线性回归、PCA等。

  3. 模型对特征尺度敏感时
    特别是在使用梯度下降优化算法的场景中,标准化有助于加快收敛速度。


实现方法(Python 示例)

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

 

scikit-learn 中,StandardScaler 实现了对每列特征的标准化,即减去均值再除以标准差。它默认沿列方向(每个特征)进行操作。


标准化 vs 归一化(Normalization)

项目标准化(Standardization)归一化(Normalization)
定义减去均值再除以标准差缩放到 [0, 1] 区间
结果均值为0,标准差为1最小值为0,最大值为1
适用对于有正态分布假设的模型神经网络输入或图像像素等场景

总结

标准化是一种基础但极其重要的数据预处理方法,它通过“居中+等比例伸缩”将数据调整到标准正态分布状态,为后续建模打下坚实基础。在使用大多数机器学习模型之前,对特征数据进行标准化处理,是提升模型性能与稳定性的关键一步。

 

相关文章:

  • docker 大模型
  • Cribl 优化EC2 ip-host-region 数据
  • Grouped Query Attention (GQA) PyTorch实现
  • 关于学习STM32的C语言的知识
  • matlab 处理海洋数据并画图的工具包--ocean_data_tools
  • 基于模板匹配的信用卡号码识别系统
  • 学习笔记十七——Rust 支持面向对象编程吗?
  • system V消息队列和信号量的学习
  • Python番外——常用的包功能讲解和分类组合
  • 服务治理-搭建Nacos注册中心
  • @EnableAsync+@Async源码学习笔记之六
  • 【自动化测试框架】什么是对象层?
  • [密码学基础]密码学常用名词深度解析:从基础概念到实战应用
  • npm 常用操作和配置
  • 国产GPU生态现状评估:从寒武纪到壁仞的编程适配挑战
  • DeepSeek与Napkin:信息可视化领域的创新利器
  • 安徽合肥京东自营代运营如何突围?
  • CSRF 请求伪造Referer 同源置空配合 XSSToken 值校验复用删除
  • 第3章 垃圾收集器与内存分配策略《深入理解Java虚拟机:JVM高级特性与最佳实践(第3版)》
  • FPGA练习———DDS波形发生器
  • 马上评|与其争论董宇辉该不该获奖,不如多关心文学
  • 87岁老人花3万多做“血液净化”延年益寿?医院“张主任”:我那是善意的欺骗
  • 一季度浙江实现生产总值22300亿元,同比增长6.0%
  • 魔都眼|上海半马鸣枪:白金标运动员、“箱根之子”齐参赛
  • 明查|俄罗斯征兵部门突袭澡堂抓捕壮丁?
  • 收藏家尤伦斯辞世,曾是中国当代艺术的推手与收藏者