在數據分析和機器學習中,統計數據中的缺失值是非常重要的一步。python的pandas庫提供了便捷的函數,可以快速統計缺失值。
# 導入pandas庫 import pandas as pd # 創建一個包含缺失值的數據集 data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'], 'age': [23, 25, None, 30, 28], 'gender': [None, 'M', 'F', None, 'F']} df = pd.DataFrame(data) # 統計缺失值的數量 missing_value_count = df.isna().sum() # 輸出統計結果 print(missing_value_count)
上述代碼首先導入了pandas庫,然后使用字典創建一個包含缺失值的數據集,并使用pandas的DataFrame函數將其轉換成數據框。接下來,使用DataFrame的isna函數檢查數據框中的缺失值,并使用sum函數統計缺失值的數量。最后,輸出統計結果。
上述代碼的輸出結果為:
name 0 age 1 gender 2 dtype: int64
上述結果表明,在數據集中,name列沒有缺失值,age列有1個缺失值,gender列有2個缺失值。
使用pandas庫可以方便地統計缺失值的數量,進而幫助我們更好地理解數據,確定如何處理缺失值。
上一篇python 統計漢字數
下一篇vue duration