在數據分析和挖掘的過程中,缺失值的處理是非常重要的一步。在Python中,我們可以使用pandas庫來處理缺失值。
首先,我們需要先加載數據到pandas的DataFrame中:
import pandas as pd df = pd.read_csv('data.csv')
接下來,我們可以使用isnull()函數來檢測數據中的缺失值,并使用sum()函數計算每個特征中的缺失值數量:
missing = df.isnull().sum() print(missing)
這將輸出一個包含每個特征中缺失值數量的Series對象。例如,如果我們的數據集中有兩個特征,分別為“age”和“salary”,那么輸出結果可能如下所示:
age 432 salary 67 dtype: int64
從輸出中可以看出,“age”特征中有432個缺失值,“salary”特征中有67個缺失值。
除了可以使用sum()函數計算缺失值數量,我們還可以使用mean()函數計算缺失值所占比例:
missing_percent = df.isnull().mean() * 100 print(missing_percent)
這將輸出一個包含每個特征中缺失值所占比例的Series對象。例如,如果我們的數據集中有兩個特征,分別為“age”和“salary”,那么輸出結果可能如下所示:
age 8.3 salary 1.3 dtype: float64
從輸出中可以看出,“age”特征中的缺失值占比為8.3%,“salary”特征中的缺失值占比為1.3%。
總之,在使用Python進行數據分析和挖掘的過程中,計算缺失值數量和占比是非常重要的一步。pandas庫提供了isnull()、sum()和mean()等函數方便我們進行缺失值的計算。
上一篇python 網管腳本
下一篇python 缺陷一維碼