kmeans传统算法和分布式算法的区别

发布网友发布时间：2022-04-01 10:22

共2个回答

懂视网时间：2022-04-01 14:43

kmeans原理如下：

　　输入：聚类个数k，以及包含 n个数据对象的数据库。输出：满足方差最小标准的k个聚类。

　　K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。

热心网友时间：2022-04-01 11:51

算法还是R语言擅长。java可以直接调用R语言的，有一个rJava的包。如果要分布式计算，可以基于hadoop调用R，，另外还有RHadoop等可参考。