回答:K-means算法是一种典型的基于距离的聚类算法,它以距离作为相似性评价指标,即两个对象之间的距离越近,其相似性越大。该算法认为聚类是由距离较近的对象组成的,因此得到紧凑独立的聚类是最终目标。
回答:K-means算法也称为K-means算法。K-means算法中的K是指将聚类分成K个聚类。Means是指将每个类中数据值的平均值作为该类的中心,或称为质心,即每类的质心用于描述该类。算法的思路大致是:首先从样本集中随机选取K个样本作为聚类中心,计算所有样本与这K个“聚类中心”的距离。对于每个样本,将其划分到最近的“聚类中心”所在的聚类中,并为新的聚类计算每个聚类的新“聚类中心”。
回答:‘聚类算法’试图将数据集中的样本分成几个通常不相交的子集,每个子集称为一个“簇”。通过这种划分,每个聚类可能对应一些潜在的概念或类别。上图是未标注的样本集。通过它们的分布,我们很容易把上图中的样本分成以下几类。
回答:KNN基本不需要训练。对于测试集中的点,只需要在训练集中找到最近的K个点,用这些最近的K个点的类别来决定测试点的类别。而K-Means有一个明显的训练过程,寻找K个类别的最佳质心,从而确定样本的聚类类别。