Python是一種功能強大的編程語言,它可以用于幾乎所有領域,包括數據科學。在數據科學中,統計分析是非常重要的一部分。而正態檢驗則是統計學中的一個基本概念。
import numpy as np from scipy import stats import matplotlib.pyplot as plt # 生成一個正態分布的數據集 data = np.random.normal(size=1000) # 查看數據的基本統計信息 print('Mean:', np.mean(data)) print('Std:', np.std(data)) # 畫出數據的概率密度圖 plt.hist(data, bins=50, density=True, color='blue') # 進行正態檢驗 # 如果返回值的第二個值小于0.05,則代表數據不服從正態分布 result = stats.normaltest(data) print('p-value:', result[1]) # 顯示圖像 plt.show()
以上代碼使用了Python中的NumPy、SciPy和Matplotlib庫,先生成一個包含1000個數據的正態分布的數據集,然后使用Matplotlib庫畫出了數據的概率密度圖。接著利用SciPy庫中的stats.normaltest函數進行正態檢驗,返回一個包含兩個值的元組,其中p值小于0.05時,則拒絕正態性假設,即認為數據不服從正態分布。
正態檢驗在統計分析中非常有用,它可以幫助我們確定數據是否符合正態分布,以便于后續的數據分析和建模。而Python作為一種非常流行的編程語言,具有豐富的統計分析和數據可視化庫,可以極大程度地簡化數據科學的工作流程。