統計學是現代數據分析中的核心領域,Python 在這個領域中有很大的應用,主要歸功于 Python 的簡單而強大的數學庫。
Python NumPy 庫提供了一組高效的數組操作函數,它是在 Python 中進行科學計算和數據分析的首選庫之一。例如,你想要快速計算一個數組的中位數,你可以使用 numpy.median 函數。
import numpy as np arr = np.array([1, 2, 3, 4, 5]) median = np.median(arr) print(median) # Output: 3.0
Python Pandas 庫為數據處理和數據分析提供了更高級別的 API。我們可以使用 Pandas 的 Series 和 DataFrame 類型來加載、處理和分析數據集。下面的示例展示了如何加載一個文本文件并計算其平均值和標準差。
import pandas as pd df = pd.read_csv('data.csv') mean = df['score'].mean() std = df['score'].std() print('Mean:', mean) print('Std:', std)
Python Matplotlib 庫提供了許多功能強大的繪圖函數。下面的示例展示了如何使用 Matplotlib 繪制一個正態分布曲線。
import matplotlib.pyplot as plt import numpy as np x = np.linspace(-10, 10, 1000) y = (1 / (np.sqrt(2 * np.pi) * 1.0)) * np.exp(-((x - 0) ** 2) / (2 * 1.0 ** 2)) plt.plot(x, y) plt.show()
結論:Python 的數學庫和繪圖庫的強大功能使它成為處理和分析統計數據的一種強大工具。因此,Python 在數據科學和機器學習領域被廣泛應用。