poster
2019-12-10, 20:48
我在MATLAB中编写了k-Means聚类 (http://en.wikipedia.org/wiki/K-means_clustering)算法,并认为可以在kmeans(X,k)内置的MATLAB中进行尝试。
但是,对于非常简单的四个群集设置(参见图片),MATLAB kMeans (http://www.mathworks.com/help/toolbox/stats/kmeans.html)并不总是收敛于最优解(左)而是收敛于(右)。
我写的那个也不总是那么做,但是内置函数是否不应该能够解决这样一个简单的问题,总是寻找最佳解决方案?
https://i.stack.imgur.com/DYv31.png
回答:
正如@Alexandre C.所 (https://stackoverflow.com/questions/3657801/matlab-kmeans-does-not-always-converge-to-global-minima/3658206#3658206)解释的那样,K-means算法取决于初始聚类质心位置,并且不能保证它会收敛到最优解。
最好的办法是在随机起点上重复几次实验。
MATLAB的实现提供了这样一个选项: replicates使N次重复聚类,并选择簇内点到质心的总距离最小的聚类。您还可以控制如何使用start选项选择初始质心。
此外,MATLAB还提供了许多距离度量(欧几里得,曼哈顿,余弦等)中的选择。一个整洁的选项emptyaction允许您控制当集群在迭代过程中丢失所有分配的成员时发生的情况。
但是真正的优势在于它采用了两阶段算法:通常的分配-重新计算迭代,然后是在线更新阶段。请务必阅读文档页面 (http://www.mathworks.com/help/toolbox/stats/kmeans.html#f3884002)的算法部分以获取更多信息。
更多&回答... (https://stackoverflow.com/questions/3657801)
但是,对于非常简单的四个群集设置(参见图片),MATLAB kMeans (http://www.mathworks.com/help/toolbox/stats/kmeans.html)并不总是收敛于最优解(左)而是收敛于(右)。
我写的那个也不总是那么做,但是内置函数是否不应该能够解决这样一个简单的问题,总是寻找最佳解决方案?
https://i.stack.imgur.com/DYv31.png
回答:
正如@Alexandre C.所 (https://stackoverflow.com/questions/3657801/matlab-kmeans-does-not-always-converge-to-global-minima/3658206#3658206)解释的那样,K-means算法取决于初始聚类质心位置,并且不能保证它会收敛到最优解。
最好的办法是在随机起点上重复几次实验。
MATLAB的实现提供了这样一个选项: replicates使N次重复聚类,并选择簇内点到质心的总距离最小的聚类。您还可以控制如何使用start选项选择初始质心。
此外,MATLAB还提供了许多距离度量(欧几里得,曼哈顿,余弦等)中的选择。一个整洁的选项emptyaction允许您控制当集群在迭代过程中丢失所有分配的成员时发生的情况。
但是真正的优势在于它采用了两阶段算法:通常的分配-重新计算迭代,然后是在线更新阶段。请务必阅读文档页面 (http://www.mathworks.com/help/toolbox/stats/kmeans.html#f3884002)的算法部分以获取更多信息。
更多&回答... (https://stackoverflow.com/questions/3657801)