数据分析：预测汽车违约风险

本文通过分析汽车贷款违约情况，利用多种机器学习模型进行预测。首先，对数据进行预处理，包括处理缺失值、异常值等，然后使用线性回归、决策树、随机森林、支持向量机 (SVM) 和 K-近邻 (KNN) 等模型进行训练和预测。最后，通过绘制 ROC 曲线并计算 AUC 来评估模型的性能。

_雕尔塔_

4783人浏览 · 2023-04-30 18:34:46

_雕尔塔_ · 2023-04-30 18:34:46 发布

数据集展示

数据集包含以下特征：

vehicle_year：汽车生产年份
vehicle_make：汽车制造商
tot_rev_line：信用卡总透支额度
...

导入所需库

首先，让我们导入所需的库：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

数据预处理

在这一部分，我们将对数据进行初步的清洗和预处理，以便进行后续的分析和建模。

导入数据集

我们将使用pandas库来导入数据集，并查看数据的形状和内容：

data = pd.read_csv('data.csv')
data.shape
data.head()

数据初步分析

接下来，我们需要对数据进行初步的分析，找出异常值和空值：

data.describe().T
data.dtypes

根据观察，我们发现application_id和account_number都是唯一的，因此我们只需保留其中一个即可。

划分x与y变量

我们将数据集分为自变量（X）和因变量（Y）：

x_var_list = ['vehicle_year', 'vehicle_make', 'bankruptcy_ind', 'tot_derog', 'tot_tr', 'age_oldest_tr', 'tot_open_tr', 'tot_rev_tr', 'tot_rev_debt', 'tot_rev_line', 'rev_util', 'fico_score', 'purch_price', 'msrp', 'down_pyt', 'loan_term', 'loan_amt', 'ltv', 'tot_income', 'veh_mileage', 'used_ind', 'weight']
data_x = data.loc[:, x_var_list]
data_y = data.loc[:, 'bad_ind']

处理缺失值和异常值

我们将使用不同的方法处理数据中的缺失值和异常值。对于缺失值，需要根据数据的实际分布采取合适的填充方式，例如对于月均收入，由于缺失时客户的违约金和20%的平均违约基本一致，所以可以直接用中位数填充。当然由于缺失的数据较少也可以采用直接丢弃的处理方法。对于破产特征来说，由于属性取值只有两种状态，无法用均值，中位数填充的方式处理，这里用unknown值来替换。

对于其中的异常值，结合实际情况处理数据。例如月均收入存在许多明显过大的数据，计算该属性的理论最大值然后将这些超过理论最大值的异常数据用理论最大值替换。对于汽车制造年份特征而言，数据中“0”“9999”是明显的异常数据，直接用均值填充：

重新划分X与Y变量

在处理完数据中的缺失值和异常值之后，我们将重新划分X与Y变量：

x_var_list = ['tot_derog', 'tot_tr', 'age_oldest_tr', 'tot_open_tr', 'tot_rev_tr', 'tot_rev_debt', 'tot_rev_line', 'rev_util', 'fico_score', 'purch_price', 'msrp', 'down_pyt', 'loan_term', 'loan_amt', 'ltv', 'tot_income', 'veh_mileage', 'used_ind']
data_x = data.loc[:, x_var_list]
data_y = data['bad_ind']

现在，我们已经重新划分了X与Y变量，可以进行接下来的分析。

特征选择

在建立预测模型之前，我们需要确定哪些变量对于预测客户违约的可能性最为重要。为此，我们可以使用特征选择技术来评估每个变量的重要性。

from sklearn.feature_selection import SelectKBest, chi2

selector = SelectKBest(chi2, k=10) # 选择最重要的10个特征
selector.fit(data_x, data_y)
scores = selector.scores_
selected_features = selector.get_support(indices=True)

selected_x = data_x.iloc[:, selected_features]
print("Selected features:", list(selected_x.columns))

运行上述代码后，我们将得到10个被认为最重要的特征。接下来，我们将使用这些特征来训练和测试我们的预测模型。

模型训练与测试

为了训练和测试我们的预测模型，我们需要将数据集划分为训练集和测试集。这可以通过使用train_test_split函数实现：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(selected_x, data_y, test_size=0.2, random_state=42)

现在我们已经将数据集划分为训练集和测试集，我们可以选择一个适合的预测模型。在本例中，我们将使用逻辑回归模型：

from sklearn.linear_model import LogisticRegression

logreg_model = LogisticRegression(solver='liblinear')
logreg_model.fit(X_train, y_train)

模型训练完成后，我们可以使用测试集评估模型的性能：

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

y_pred = logreg_model.predict(X_test)

print("Accuracy score:", accuracy_score(y_test, y_pred))
print("Confusion matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification report:\n", classification_report(y_test, y_pred))

通过查看准确度得分、混淆矩阵和分类报告，我们可以评估模型的性能。如果性能不佳，我们可以尝试其他机器学习算法或调整模型参数以改进性能。

通过上述步骤，我们成功地为汽车贷款违约预测建立了一个逻辑回归模型。您可以根据实际情况调整特征选择方法、模型类型和参数以获得更好的预测结果。

例如，以下是我尝试使用的一些机器学习算法：

线性回归：

决策树：

随机森林：

支持向量机：

KNN：

数据集我已经上传到百度网盘，有需要的自取：

链接:https://pan.baidu.com/s/19m4knrh2ox5NveGHNwtrog?pwd=ji38 提取码:ji38

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

【Spring Boot 】Spring Boot + HikariCP 连接池使用示例

文章目录示例工具版本HikariCP 依赖HikariCP 配置1. connectionTimeout2. minimumIdle3. maximumPoolSize4. idleTimeout5. maxLifetime6. autoCommitSpring Boot Data + HikariCP + MySQL示例测试应用程序1. 使用 Maven 命令2. 使用 Eclipse3. 使用