基于Python的人工智能应用案例系列(3):消费者聚类
在本篇文章中,我们将探讨如何使用进行消费者聚类。通过这种方法,商家可以根据顾客的行为和属性将其分成不同的群体,以便制定差异化的市场策略。我们将使用Python中的,并通过肘部法则来确定最优的簇数。
在本篇文章中,我们将探讨如何使用聚类算法进行消费者聚类。通过这种方法,商家可以根据顾客的行为和属性将其分成不同的群体,以便制定差异化的市场策略。我们将使用Python中的K-Means聚类,并通过肘部法则来确定最优的簇数。
案例背景
我们使用的数据集来自一家购物中心,数据中的每条记录代表一名消费者,目标是根据消费者的年龄、年收入和消费得分,将其划分为不同的群体(即聚类)。该数据集的特征包括:
- CustomerID:唯一顾客ID
- Gender:性别
- Age:年龄
- Annual Income:年收入
- Spending Score:根据顾客的消费行为和购物中心对其消费的评估得分
我们的目标是通过这些特征对顾客进行聚类,便于商家了解不同消费者群体的特征,从而制定相应的营销策略。
1. 导入数据与必要的库
首先,我们需要导入Python的相关库,并加载顾客数据集。
# 加载库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 关闭警告
import warnings
warnings.filterwarnings('ignore')
# 加载数据集
df = pd.read_csv("data/Mall_Customers.csv")
# 查看数据
df.head()
我们将CustomerID
列删除,因为它对聚类没有实际意义。
# 删除CustomerID列
df = df.drop(columns=['CustomerID'])
2. 数据清理
在处理数据之前,我们需要确保数据没有缺失值,并检查是否有任何不合理的数据输入。
# 检查缺失值
df.isna().sum()
# 检查每列的唯一值
for col in df.columns:
print(f"{col}:", df[col].unique())
幸运的是,数据中没有缺失值。接下来,我们将对Gender
进行标签编码,将其转换为数值类型。
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df["Gender"] = le.fit_transform(df["Gender"])
print(df["Gender"].unique())
3. 数据探索性分析(EDA)
通过绘制数据的分布图,我们可以直观地了解数据集中的模式和可能存在的聚类特征。
# 绘制pair plot
sns.pairplot(df)
plt.show()
通过可视化,我们可以观察到以下几点:
- 顾客年龄主要集中在30-35岁,较年长者较少光顾。
- 消费得分集中在50左右,大部分顾客收入低于100k美元。
Spending Score
和Annual Income
显示出一些潜在的聚类特征。
基于以上观察,我们决定删除Gender
列,因为性别对聚类的贡献不明显。
# 删除Gender列
df = df.drop(columns=['Gender'])
4. 模型构建
在无监督学习中,数据集通常不需要划分为训练集和测试集。我们将使用K-Means聚类算法,并通过肘部法则来确定最优的簇数。
设置特征矩阵
我们将数据转换为NumPy数组,以便用于K-Means聚类算法。
X = df.to_numpy()
print(X.shape)
寻找最优的簇数
通过肘部法则,我们可以选择合适的簇数k
,即选择使误差平方和(SSD)变化不再显著的点。
from sklearn.cluster import KMeans
ssd = []
for k in range(2, 20):
kmeans = KMeans(n_clusters=k, n_init="auto")
kmeans.fit(X)
ssd.append(kmeans.inertia_)
# 绘制肘部法则图
plt.figure(figsize=(10, 3))
plt.plot(range(2, 20), ssd)
plt.xticks(range(2, 20))
plt.ylabel("SSD")
plt.xlabel("K")
plt.grid(True)
plt.title('Elbow curve')
plt.show()
通过肘部法则图,我们可以看到k=5
时效果最佳,因此我们选择5个簇来进行聚类。
进行聚类
我们使用KMeans
算法进行聚类,并获取每个客户所属的簇标签。
k = 5
model = KMeans(n_clusters=k)
model.fit(X)
# 聚类结果
yhat = model.labels_
5. 结果可视化
我们通过三维图对聚类结果进行可视化,展示不同簇的客户分布情况。
k = 5
model = KMeans(n_clusters=k)
model.fit(X)
# 聚类结果
yhat = model.labels_
通过三维可视化,我们可以直观地看到不同簇的消费者分布情况。这为我们进一步分析不同簇的客户特征提供了依据。
6. 聚类应用场景
聚类算法在许多领域中有着广泛的应用,特别是在市场营销中,可以帮助企业做出更有针对性的决策:
- 推荐系统:根据相似的客户行为,推荐相关的产品或服务。
- 异常检测:用于检测异常行为,例如信用卡欺诈。
- 市场细分:帮助企业根据不同的客户群体制定差异化的市场策略。
结论
在本篇文章中,我们使用K-Means聚类算法对消费者进行了聚类分析。通过对客户的年龄、年收入和消费得分的分析,我们成功地将客户划分为不同的群体。这种聚类分析为企业制定营销策略提供了重要的支持。无监督学习中的聚类算法不仅适用于消费者分析,还能应用于多个其他领域。
希望这篇文章帮助您更好地理解聚类算法及其应用。如果有任何问题或需要进一步修改的地方,欢迎随时联系!
如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!
欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。
谢谢大家的支持!
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)