K-means 笔记
- 数据预处理: 剔除离群点、数据归一化、数据标准化
- 初始化: 随机选择K个中心点u(0)1, u(0)2, u(0)3, …, u(0)K
- 定义损失函数:
- 交替迭代(t为步数,重复一下两个步骤直到J收敛)
对于每个样本点,将其分配到距离最近的簇
对于每个簇,重新计算聚类质心
K-means算法缺点
- 人工选取k值, 不一定符合数据分布
- 收初始值和离群点的影响较为严重,稳定性差
## K-means算法优点 - 对于大数据集,算法时间读咋读为线性O(NKT)
N: 样本点个数
K: 聚类中心个个数
T: 迭代轮数 - 局部最优解通常已经可以满足问题需要
k-means算法调优
- K值选择(手肘法)
k-means算法改进
- 改进点: 对初始值的选择进行优化
- k-means++算法
- 改进思想: 选取第n+1个聚类中心时:
- 距离其他聚类中心越远,被选中的概率越大