在機器學習領域,樣本分割是非常重要的一項技術。在 Python 中,我們可以使用 sklearn 庫中的 train_test_split 函數來進行樣本分割。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
上面的代碼演示了如何將數據集 X 和標簽 y 按照 8:2 的比例分割成訓練集和測試集。
除了常規的樣本分割,sklearn 還提供了一些其他的分割策略,如 KFold 分割。
from sklearn.model_selection import KFold
kf = KFold(n_splits=10)
for train_index, test_index in kf.split(X):
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
上面的代碼演示了如何使用 KFold 將數據集按照 10 折進行分割,并進行交叉驗證。
樣本分割是機器學習中必不可少的技術之一,而 Python 中的 sklearn 庫為我們提供了豐富的分割策略,方便我們進行數據分析和建模。
上一篇python 綠色版安裝
下一篇vue加載后卡死