MATLAB kMeans并不总是收敛于全局最小值 [论坛存档]

poster

2019-12-10, 20:48

我在MATLAB中编写了k-Means聚类 (http://en.wikipedia.org/wiki/K-means_clustering)算法，并认为可以在kmeans(X,k)内置的MATLAB中进行尝试。

但是，对于非常简单的四个群集设置（参见图片），MATLAB kMeans (http://www.mathworks.com/help/toolbox/stats/kmeans.html)并不总是收敛于最优解（左）而是收敛于（右）。

我写的那个也不总是那么做，但是内置函数是否不应该能够解决这样一个简单的问题，总是寻找最佳解决方案？

https://i.stack.imgur.com/DYv31.png

回答：

正如@Alexandre C.所 (https://stackoverflow.com/questions/3657801/matlab-kmeans-does-not-always-converge-to-global-minima/3658206#3658206)解释的那样，K-means算法取决于初始聚类质心位置，并且不能保证它会收敛到最优解。

最好的办法是在随机起点上重复几次实验。

MATLAB的实现提供了这样一个选项： replicates使N次重复聚类，并选择簇内点到质心的总距离最小的聚类。您还可以控制如何使用start选项选择初始质心。

此外，MATLAB还提供了许多距离度量（欧几里得，曼哈顿，余弦等）中的选择。一个整洁的选项emptyaction允许您控制当集群在迭代过程中丢失所有分配的成员时发生的情况。

但是真正的优势在于它采用了两阶段算法：通常的分配-重新计算迭代，然后是在线更新阶段。请务必阅读文档页面 (http://www.mathworks.com/help/toolbox/stats/kmeans.html#f3884002)的算法部分以获取更多信息。

更多&回答... (https://stackoverflow.com/questions/3657801)