随机初始化 II

随机初始化聚类中心点

随机初始化所有的聚类中心点的做法:

  1. 我们应该选择 K<m,即聚类中心点的个数要小于所有训练集实例的数量
  2. 随机选择 K 个训练实例,然后令 K 个聚类中心分别与这 K 个训练实例相等

K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。

为了解决这个问题,通常需要多次运行 K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值的结果,选择代价函数最小的结果。这种方法在 k 较小的时候(2–10)还是可行的,但是如果 k 较大,这么做也可能不会有明显地改善。