異常值是數據中不正常的值,這些值可能是輸入錯誤、記錄錯誤或樣本數據本身的異常。在數據分析和機器學習中,我們需要識別并處理這些異常值,以保證結果的準確性。Python 是一種流行的編程語言,下面介紹 Python 如何識別異常值。
#首先,導入所需的庫 import numpy as np import pandas as pd #創建一個數據集 data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, np.nan], 'C': [100, 200, 300, 400, 500]} df = pd.DataFrame(data) #使用 describe() 函數查看數據信息,可以觀察到 B 列存在缺失值 df.describe() #輸出: # A B C #count 5.0 4.000000 5.0 #mean 3.0 25.000000 300.0 #std 1.581139 15.811388 158.113883 #min 1.0 10.000000 100.0 #25% 2.0 17.500000 200.0 #50% 3.0 25.000000 300.0 #75% 4.0 32.500000 400.0 #max 5.0 40.000000 500.0 #使用 isnull() 函數檢查缺失值 df.isnull() #輸出: # A B C #0 False False False #1 False False False #2 False False False #3 False False False #4 False True False #使用 notnull() 函數檢查非缺失值 df.notnull() #輸出: # A B C #0 True True True #1 True True True #2 True True True #3 True True True #4 True False True #使用 dropna() 函數刪除缺失值 df.dropna() #輸出: # A B C #0 1 10.0 100 #1 2 20.0 200 #2 3 30.0 300 #3 4 40.0 400 #使用 fillna() 函數填充缺失值 df.fillna(method='ffill') #輸出: # A B C #0 1 10.0 100 #1 2 20.0 200 #2 3 30.0 300 #3 4 40.0 400 #4 5 40.0 500
以上是 Python 識別異常值的基本方法,但在實際應用中,異常值識別仍然是個復雜的問題,需要根據具體情況進行分析和處理。