1.检查是否有缺失值

列:

data.isnull().any()
print(data.isnull().any())

false无缺失值/true有缺失值

结果例样:
age false
name false
school true

school的这一列有缺失值,其他列无缺失值。

行:

data.isnull().any(axis=1)
print(data.isnull().any(axis=1))

false无缺失值/true有缺失值

结果例样:
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 True

0-7行无缺失值,第8行有缺失值。

2.统计缺失值的数量

列:

data.isnull().sum()
print(data.isnull().sum())
#想只显示age这一列的缺失值数量:
#data.age.isnull().sum()
#print(data.age.isnull().sum())

输出例样:
age 0
name 0
school 20

data.isnull().any().sum()#统计共有几列存在缺失值
print(data.isnull().any().sum())

结果为:1

行:

data.isnull().sum(axis=1)
print(data.isnull().sum(axis=1))

输出例样:
1 0
2 2
3 1
第二行有2个缺失值,第三行有1个缺失值。

data.isnull().any().sum(axis=1)#统计共有几行存在缺失值
print(data.isnull().any().sum(axis=1))

结果为2

3.替换缺失值

m, n = data.shape #数据维度;i,j根据数据定义
for i in range(0, m):
    for j in column:
        if data.loc[i, j] == 'X':
            data.loc[i, j] = NA

用NA替换数据中的X

4.显示完整数据

pd.set_option('display.max_rows', None)

有时候数据多,结果为省略号。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐