MATLAB kMeans并不总是收敛于全局最小值 - MATLAB爱好者论坛-LabFans.com

poster · 2019-12-10, 20:48

我在MATLAB中编写了k-Means聚类算法，并认为可以在kmeans(X,k)内置的MATLAB中进行尝试。

但是，对于非常简单的四个群集设置（参见图片），MATLAB kMeans并不总是收敛于最优解（左）而是收敛于（右）。

我写的那个也不总是那么做，但是内置函数是否不应该能够解决这样一个简单的问题，总是寻找最佳解决方案？

回答：

正如@Alexandre C.所解释的那样，K-means算法取决于初始聚类质心位置，并且不能保证它会收敛到最优解。

最好的办法是在随机起点上重复几次实验。

MATLAB的实现提供了这样一个选项： replicates使N次重复聚类，并选择簇内点到质心的总距离最小的聚类。您还可以控制如何使用start选项选择初始质心。

此外，MATLAB还提供了许多距离度量（欧几里得，曼哈顿，余弦等）中的选择。一个整洁的选项emptyaction允许您控制当集群在迭代过程中丢失所有分配的成员时发生的情况。

但是真正的优势在于它采用了两阶段算法：通常的分配-重新计算迭代，然后是在线更新阶段。请务必阅读文档页面的算法部分以获取更多信息。

更多&回答...

2019-12-10, 20:48	#1
poster 高级会员注册日期: 2019-11-21 帖子: 3,020 声望力: 67	MATLAB kMeans并不总是收敛于全局最小值我在MATLAB中编写了k-Means聚类算法，并认为可以在kmeans(X,k)内置的MATLAB中进行尝试。但是，对于非常简单的四个群集设置（参见图片），MATLAB kMeans并不总是收敛于最优解（左）而是收敛于（右）。我写的那个也不总是那么做，但是内置函数是否不应该能够解决这样一个简单的问题，总是寻找最佳解决方案？回答：正如@Alexandre C.所解释的那样，K-means算法取决于初始聚类质心位置，并且不能保证它会收敛到最优解。最好的办法是在随机起点上重复几次实验。 MATLAB的实现提供了这样一个选项： replicates使N次重复聚类，并选择簇内点到质心的总距离最小的聚类。您还可以控制如何使用start选项选择初始质心。此外，MATLAB还提供了许多距离度量（欧几里得，曼哈顿，余弦等）中的选择。一个整洁的选项emptyaction允许您控制当集群在迭代过程中丢失所有分配的成员时发生的情况。但是真正的优势在于它采用了两阶段算法：通常的分配-重新计算迭代，然后是在线更新阶段。请务必阅读文档页面的算法部分以获取更多信息。更多&回答...