在本篇文章中,我们将探讨如何使用聚类算法进行消费者聚类。通过这种方法,商家可以根据顾客的行为和属性将其分成不同的群体,以便制定差异化的市场策略。我们将使用Python中的K-Means聚类,并通过肘部法则来确定最优的簇数。

案例背景

        我们使用的数据集来自一家购物中心,数据中的每条记录代表一名消费者,目标是根据消费者的年龄、年收入和消费得分,将其划分为不同的群体(即聚类)。该数据集的特征包括:

  • CustomerID:唯一顾客ID
  • Gender:性别
  • Age:年龄
  • Annual Income:年收入
  • Spending Score:根据顾客的消费行为和购物中心对其消费的评估得分

        我们的目标是通过这些特征对顾客进行聚类,便于商家了解不同消费者群体的特征,从而制定相应的营销策略。

1. 导入数据与必要的库

        首先,我们需要导入Python的相关库,并加载顾客数据集。

# 加载库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 关闭警告
import warnings
warnings.filterwarnings('ignore')

# 加载数据集
df = pd.read_csv("data/Mall_Customers.csv")

# 查看数据
df.head()

        我们将CustomerID列删除,因为它对聚类没有实际意义。

# 删除CustomerID列
df = df.drop(columns=['CustomerID'])
2. 数据清理

        在处理数据之前,我们需要确保数据没有缺失值,并检查是否有任何不合理的数据输入。

# 检查缺失值
df.isna().sum()

# 检查每列的唯一值
for col in df.columns:
    print(f"{col}:", df[col].unique())

        幸运的是,数据中没有缺失值。接下来,我们将对Gender进行标签编码,将其转换为数值类型。

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df["Gender"] = le.fit_transform(df["Gender"])
print(df["Gender"].unique())
3. 数据探索性分析(EDA)

        通过绘制数据的分布图,我们可以直观地了解数据集中的模式和可能存在的聚类特征。

# 绘制pair plot
sns.pairplot(df)
plt.show()

        通过可视化,我们可以观察到以下几点:

  • 顾客年龄主要集中在30-35岁,较年长者较少光顾。
  • 消费得分集中在50左右,大部分顾客收入低于100k美元。
  • Spending ScoreAnnual Income显示出一些潜在的聚类特征。

        基于以上观察,我们决定删除Gender列,因为性别对聚类的贡献不明显。

# 删除Gender列
df = df.drop(columns=['Gender'])
4. 模型构建

        在无监督学习中,数据集通常不需要划分为训练集和测试集。我们将使用K-Means聚类算法,并通过肘部法则来确定最优的簇数。

设置特征矩阵

        我们将数据转换为NumPy数组,以便用于K-Means聚类算法。

X = df.to_numpy()
print(X.shape)

寻找最优的簇数

        通过肘部法则,我们可以选择合适的簇数k,即选择使误差平方和(SSD)变化不再显著的点。

from sklearn.cluster import KMeans

ssd = []
for k in range(2, 20):
    kmeans = KMeans(n_clusters=k, n_init="auto")
    kmeans.fit(X)
    ssd.append(kmeans.inertia_)

# 绘制肘部法则图
plt.figure(figsize=(10, 3))
plt.plot(range(2, 20), ssd)
plt.xticks(range(2, 20))
plt.ylabel("SSD")
plt.xlabel("K")
plt.grid(True)
plt.title('Elbow curve')
plt.show()

        通过肘部法则图,我们可以看到k=5时效果最佳,因此我们选择5个簇来进行聚类。

进行聚类

        我们使用KMeans算法进行聚类,并获取每个客户所属的簇标签。

k = 5
model = KMeans(n_clusters=k)
model.fit(X)

# 聚类结果
yhat = model.labels_
5. 结果可视化

        我们通过三维图对聚类结果进行可视化,展示不同簇的客户分布情况。

k = 5
model = KMeans(n_clusters=k)
model.fit(X)

# 聚类结果
yhat = model.labels_

        通过三维可视化,我们可以直观地看到不同簇的消费者分布情况。这为我们进一步分析不同簇的客户特征提供了依据。

6. 聚类应用场景

聚类算法在许多领域中有着广泛的应用,特别是在市场营销中,可以帮助企业做出更有针对性的决策:

  • 推荐系统:根据相似的客户行为,推荐相关的产品或服务。
  • 异常检测:用于检测异常行为,例如信用卡欺诈。
  • 市场细分:帮助企业根据不同的客户群体制定差异化的市场策略。
结论

        在本篇文章中,我们使用K-Means聚类算法对消费者进行了聚类分析。通过对客户的年龄、年收入和消费得分的分析,我们成功地将客户划分为不同的群体。这种聚类分析为企业制定营销策略提供了重要的支持。无监督学习中的聚类算法不仅适用于消费者分析,还能应用于多个其他领域。

        希望这篇文章帮助您更好地理解聚类算法及其应用。如果有任何问题或需要进一步修改的地方,欢迎随时联系!

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐