k-中心聚类（k-medoids）算法——附MATLAB代码

k-medoids聚类是一种无监督的聚类算法，它对未标记数据中的对象进行聚类

m0_69715013

2374人浏览 · 2023-08-23 11:04:44

m0_69715013 · 2023-08-23 11:04:44 发布

k-中心聚类（k-medoids）算法——附MATLAB代码

k-medoids算法
k-中心聚类算法代码
算法总结
- k-medoids与k-means比较
- k-medoids算法的优缺点

k-medoids算法

k-medoid（也称为围绕medoid的划分）算法是由Kaufman和Rousseeuw于1987年提出的。中间点可以定义为簇中的点，其与簇中所有其他点的相似度最小。
k-medoids聚类是一种无监督的聚类算法，它对未标记数据中的对象进行聚类。k-medoids算法步骤:
步骤1：随机选择k个样本作为初始的簇中心；
步骤2：对剩余的每个样本，将其划分入距离它最近的簇中心所在的簇中，从而形成k个簇；
步骤3：重新计算簇中心，即对于每个簇，找到该簇中的一个样本点，称为medoid，使得该簇中所有其他点到该样本点的距离之和最小;

k-medoids聚类中心一定是原始样本点，而k-means聚类中心不一定是原始样本点

步骤4：如果簇中心没有发生任何改变，算法停止，否则回到步骤2。
k-中心聚类算法流程图

k-中心聚类算法代码

function k_medoids(x,k)
%%
%生成数据(为了可视化，生成二维数据）
%x=[rand(20,2);rand(30,2)+1;rand(40,2)*2+1.5];
%k=3;
%样本分布可视化
figure(1)
subplot(1,2,1)%子图1
scatter(x(:,1),x(:,2),"filled")
title("样本分布")
[m,n]=size(x);
%产生1-m范围内的随机的k个整数 
%从原数组中提出这k个点对应坐标
s0=randperm(m,k);
c=x(s0,:);
%初始化
c0=zeros(k,n); 
D=zeros(m,k);
%%
while (max(abs(c-c0))>0.0001)
    c0=c;
    %定义行数为k的元胞数组用以存储簇对应样本点  
    cluster=cell(k,1);  
    %将选取的k个点加入到对应的k个存储单元,每个单元的第一行存储相对应的簇中心  
    for i=1:k  
    cluster{i}=c(i,:);  
    end
    %计算其他样本点到这k个点的距离，然后按照距离最近原则划分这些点 
    for i=1:k
    D(:,i)=sum((x-c(i,:)).^2,2).^0.5;
    end
    [~,id]=min(D,[],2);
    for i=1:k
     %将样本点划分到对应的簇中
    cluster{i}=cat(1,cluster{i},x(id==i,:)); 
    len=size(cluster{i},1);
    d=zeros(len,1);
    %计算每一个簇内的样本点到该簇内其他所有样本点的距离之和
    for j=1:len
        d(j)=sum(sum((cluster{i}-cluster{i}(j,:)).^2,2).^0.5);
    end
    %更新簇内中心
    %将距离其余样本点的距离之和最小的样本点作为该簇新的中心
    [~,id1]=min(d);
    c(i,:)=cluster{i}(id1,:);
    end
end
%绘制k-中心算法聚类结果
subplot(1,2,2) %子图2
for i=1:k  
scatter(cluster{i}(:,1),cluster{i}(:,2),'filled');  
hold on
%聚类中心（！k个原始样本点）
plot(c(i,1),c(i,2),"o","MarkerSize",9)
end
title("k-中心聚类结果")
hold off

测试结果可视化：
k-medoids算法聚类结果

算法总结

k-medoids与k-means比较

k-means算法是每次选择簇的均值作为新的中心点，迭代直到簇中心不再变化（趋于稳定）。其缺点是对离群点特别敏感，因为一个很大的极端值对象会扭曲数据分布，使簇均值严重偏离；于是我们考虑新的簇中心不用均值表示而是选择簇内的某个对象，只要使总的代价降低就行，即k-medoids聚类算法。
在k-medoids聚类中，我们将medoid作为参考点，而不是像k-means聚类那样将簇中对象的质心作为参考点。medoid是簇中位置最集中的对象，或其与所有对象的平均差异性最小。因此，k-medoids算法比k-means算法对噪声更具鲁棒性。

k-medoids算法的优缺点

(1). k-medoids算法的优点：

与其他聚类算法相比，它有效地处理了数据中存在的噪声和异常值；因为它使用medoid将对象划分为集群。
易于实现且易于理解。
与其他聚类算法相比，k-medoid算法速度相对较快。
它以固定的迭代次数输出最终的对象簇。

(2). k-medoids算法的缺点：

对于同一数据集上的不同运行，可能会产生不同的聚类，因为最初，我们从所有数据对象中随机选择k个medoid，并将它们逐个分配给每个聚类，使其成为该聚类的初始medoid。
它在开始时固定了k（簇/组的数量）的值，因此我们不知道当k的值是多少时，结果是准确和可区分的。
它的总体计算时间和对象在簇或组中的最终分布取决于初始划分。