当前位置：首页 > news >正文

【scikit-learn基础】--『监督学习』之均值聚类

news 来源：原创 2025/4/22 7:21:38

聚类算法属于无监督学习，其中最常见的是均值聚类，scikit-learn中，有两种常用的均值聚类算法：
一种是有名的K-means（也就是K-均值）聚类算法，这个算法几乎是学习聚类必会提到的算法；
另一个是均值偏移聚类，它与K-means各有千秋，只是针对的应用场景不太一样，但是知名度远不如K-Means。

本篇介绍如何在scikit-learn中使用这两种算法。

1. 算法概述

1.1. K-Means

K-means算法起源于1967年，由James MacQueen和J. B. Hartigan提出。
它的基本原理是是将n个点划分为K个集群，使得每个点都属于离其最近的均值（中心点）对应的集群。

K-Means算法主要包含2个部分：

距离公式：通常采用欧几里得距离来计算数据点与质心之间的距离

d(Xi,Cj)=||Xi−Cj||2d(Xi,Cj)=||Xi−Cj||2 其中，XiXi是数据点，CjCj是质心。

目标函数：目标是最小化所有数据点与所属簇的质心之间的距离平方和

J=∑kj=1∑Nji=1||Xi−Cj||2J=∑j

相关文章：

Android 15强制edge-to-edge全面屏体验

docker部署ruoyi-vue-pro前后端详细笔记

Linux:权限相关问题

一款支持多线程的批量任务均衡器

AI日报 - 2024年04月22日

实验四-用户和权限管理

Uniapp：view容器(容器布局)

微硕WSP4407A MOS管在智能晾衣架中的应用与市场分析

时序逻辑入门指南：LTL、CTL与PTL的概念介绍与应用场景

Flowable7.x学习笔记（十）分页查询已部署 BPMN XML 流程

【Python】Python如何在字符串中添加变量

leetcode 647. Palindromic Substrings

6N60-ASEMI机器人功率器件专用6N60

《P3029 [USACO11NOV] Cow Lineup S》

使用Mybaitis-plus提供的各种的免写SQL的Wrapper的使用方式

VLAN虚拟局域网

llama-webui docker实现界面部署

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

QT 的.pro 转 vsproject 工程

从多个Excel批量筛查数据后合并到一起

全总：五一拟表彰全国劳模先进工作者2426名，盛李豪入选

三江购物：因自身商业需要，第二大股东阿里泽泰拟减持不超3%公司股份

动力电池、风光电设备退役潮来袭，国家队即将推出“再生计划”

最高法：抢票软件为用户提供不正当优势，构成不正当竞争

央行等：在上海试点通过再贴现窗口支持人民币跨境贸易融资

体坛联播｜皇马补时绝杀毕尔巴鄂，利物浦最快下轮即可夺冠