【Python】进阶学习:pandas–dropna()函数的基本使用
在这里插入图片描述

🌈 个人主页:高斯小哥
🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化Python基础【高质量合集】PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)


🔍 一、初识dropna()函数

  在数据分析的过程中,我们经常遇到数据集中存在缺失值的情况。处理这些缺失值是数据预处理的关键步骤之一。pandas库中的dropna()函数为我们提供了一种方便的方式来处理缺失值,它可以根据指定的条件删除包含缺失值的行或列。

📚 二、dropna()函数的基本用法

dropna()函数是pandas库中DataFrame和Series对象的一个方法,其基本用法如下:

  • axis:指定要删除的行还是列,默认为0表示删除行,1表示删除列。
  • how:指定删除缺失值的条件,可选值为'any''all''any'表示只要存在缺失值就删除,'all'表示只有当所有值都是缺失值时才删除。
  • thresh:指定一个阈值,表示要保留的行或列中至少有多少个非缺失值。
  • subset:指定要考虑哪些列或行。
  • inplace:是否在原地修改DataFrame,默认为False,表示不修改原DataFrame,而是返回一个新的DataFrame。

使用示例:

import pandas as pd

# 创建一个包含缺失值的DataFrame
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [None, 2, 3, 4],
    'C': [1, 2, 3, None]
})

# 删除包含缺失值的行
df_dropped_rows = df.dropna()
print("删除包含缺失值的行:")
print(df_dropped_rows)

# 删除包含缺失值的列
df_dropped_cols = df.dropna(axis=1)
print("\n删除包含缺失值的列:")
print(df_dropped_cols)

输出:

删除包含缺失值的行:
     A    B    C
1  2.0  2.0  2.0

删除包含缺失值的列:
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]

🎯 三、定制dropna()函数的行为

通过调整dropna()函数的参数,我们可以更精确地控制缺失值的处理方式。

  • 使用how参数控制删除条件:

    • 'any':只要存在缺失值就删除。
    • 'all':只有当所有值都是缺失值时才删除。
  • 使用thresh参数指定非缺失值的阈值:

    • 例如,thresh=2表示要保留至少有两个非缺失值的行或列。
  • 使用subset参数指定要考虑的列或行:

    • 通过传递列名或行索引的列表,可以限制dropna()函数的作用范围。

使用示例:

# 定制删除条件
df_custom = df.dropna(how='all')  # 只删除全为缺失值的行
print("\n定制删除条件(只删除全为缺失值的行):")
print(df_custom)

# 使用thresh参数
df_thresh = df.dropna(thresh=2)  # 保留至少有两个非缺失值的行
print("\n使用thresh参数(保留至少有两个非缺失值的行):")
print(df_thresh)

# 使用subset参数
df_subset = df.dropna(subset=['A', 'B'])  # 只考虑列'A'和'B'中的缺失值
print("\n使用subset参数(只考虑列'A'和'B'中的缺失值):")
print(df_subset)

输出:

定制删除条件(只删除全为缺失值的行):
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN

使用thresh参数(保留至少有两个非缺失值的行):
     A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN

使用subset参数(只考虑列'A'和'B'中的缺失值):
     A    B    C
1  2.0  2.0  2.0
3  4.0  4.0  NaN

💡 四、深入理解缺失值处理

  在处理缺失值时,除了使用dropna()函数外,还有其他方法可供选择,如填充缺失值(使用均值、中位数、众数等)或进行插值等。选择何种方法取决于具体的数据情况和业务需求。

📚 五、总结

  dropna()函数是pandas库中处理缺失值的重要工具,通过灵活调整其参数,我们可以实现对缺失值的精确控制。在实际应用中,我们需要根据具体的数据情况和业务需求来选择合适的缺失值处理方法。

🤝 六、期待与你共同进步

  🌱 亲爱的读者,非常感谢你每一次的停留和阅读!你的支持是我们前行的最大动力!🙏

  🌐 在这茫茫网海中,有你的关注,我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖,都像是明灯一样照亮我们前行的道路,给予我们无比的鼓舞和力量。🌟

  📚 我们会继续努力,为你呈现更多精彩和有深度的内容。同时,我们非常欢迎你在评论区留下你的宝贵意见和建议,让我们共同进步,共同成长!💬

  💪 无论你在编程的道路上遇到什么困难,都希望你能坚持下去,因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章! 🎉

  🌈 最后,再次感谢你的厚爱与支持!愿你在编程的道路上越走越远,收获满满的成就和喜悦!祝你编程愉快!🎉

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐