当前位置：首页 > news >正文

【漫话机器学习系列】210.标准化（Standardization）

news 来源：原创 2025/4/22 2:04:11

标准化（Standardization）：深入理解数据预处理中的常用技术

在数据科学与机器学习的实践中，标准化（Standardization）是一项极为常见且重要的预处理操作。它可以显著提升模型训练的效率与效果，尤其是在涉及距离计算（如KNN、SVM）或梯度下降的算法中。本文将通过图示公式，深入剖析标准化的定义、计算方法及其应用背景。

什么是标准化？

标准化，也称为 Z-score 归一化，是一种将特征值转换为标准正态分布的方法。标准化后的数据其均值为 0，标准差为 1，这意味着数据被“平移”到以 0 为中心，并根据原始分布的离散程度“压缩或拉伸”。

标准化的公式

如下图所示，标准化的数学表达式为：

其中各符号含义为：

：标准化后的第 iii 个特征值（橙色注释）
：原始第 iii 个观察值（绿色注释）
：特征向量的平均值（红色注释）
：特征向量的标准差（蓝色注释）

如何理解标准化？

标准化的核心思想是“去除位置偏移与量纲影响”。对于不同量纲或尺度的数据（如身高与收入），如果不进行标准化直接输入模型，可能会导致模型更关注数值大的特征，忽略本身重要性相当但数值较小的特征。

通过标准化，我们将每一个样本的特征值减去该特征的平均值，然后除以标准差，从而实现单位标准化。这个处理过程的结果是：

标准化后的数据 均值为 0
标准化后的数据 标准差为 1
标准化后的数据符合标准正态分布（或接近）

为什么要进行标准化？

以下几种情况特别推荐使用标准化：

不同量纲的特征同时存在
例如：房价预测模型中同时包含“面积（平方米）”与“房间数（个）”。
需要计算欧几里得距离或点积的模型
例如：KNN、KMeans、SVM、线性回归、PCA等。
模型对特征尺度敏感时
特别是在使用梯度下降优化算法的场景中，标准化有助于加快收敛速度。

实现方法（Python 示例）

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

在 scikit-learn 中，StandardScaler 实现了对每列特征的标准化，即减去均值再除以标准差。它默认沿列方向（每个特征）进行操作。

标准化 vs 归一化（Normalization）

项目	标准化（Standardization）	归一化（Normalization）
定义	减去均值再除以标准差	缩放到 [0, 1] 区间
结果	均值为0，标准差为1	最小值为0，最大值为1
适用	对于有正态分布假设的模型	神经网络输入或图像像素等场景

总结

标准化是一种基础但极其重要的数据预处理方法，它通过“居中+等比例伸缩”将数据调整到标准正态分布状态，为后续建模打下坚实基础。在使用大多数机器学习模型之前，对特征数据进行标准化处理，是提升模型性能与稳定性的关键一步。

相关文章：

docker 大模型

Cribl 优化EC2 ip-host-region 数据

Grouped Query Attention (GQA) PyTorch实现

关于学习STM32的C语言的知识

matlab 处理海洋数据并画图的工具包--ocean_data_tools

基于模板匹配的信用卡号码识别系统

学习笔记十七——Rust 支持面向对象编程吗？

system V消息队列和信号量的学习

Python番外——常用的包功能讲解和分类组合

服务治理-搭建Nacos注册中心

@EnableAsync+@Async源码学习笔记之六

【自动化测试框架】什么是对象层？

[密码学基础]密码学常用名词深度解析：从基础概念到实战应用

npm 常用操作和配置

国产GPU生态现状评估：从寒武纪到壁仞的编程适配挑战

DeepSeek与Napkin：信息可视化领域的创新利器

安徽合肥京东自营代运营如何突围？

CSRF 请求伪造Referer 同源置空配合 XSSToken 值校验复用删除

第3章垃圾收集器与内存分配策略《深入理解Java虚拟机：JVM高级特性与最佳实践（第3版）》

FPGA练习———DDS波形发生器

马上评｜与其争论董宇辉该不该获奖，不如多关心文学

87岁老人花3万多做“血液净化”延年益寿？医院“张主任”：我那是善意的欺骗

一季度浙江实现生产总值22300亿元，同比增长6.0%

魔都眼｜上海半马鸣枪：白金标运动员、“箱根之子”齐参赛

明查｜俄罗斯征兵部门突袭澡堂抓捕壮丁？

收藏家尤伦斯辞世，曾是中国当代艺术的推手与收藏者