Python是一種流行的編程語言,在數據科學和機器學習領域尤其受歡迎。其中,聚類是一種非監督學習技術,用于將相似的樣本分組在一起。Python提供了許多聚類算法和可視化工具,讓我們可以輕松地聚類數據并繪制美觀的圖表。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
# 生成示例數據
X = np.array([[5,3], [10,15], [15,12], [24,10], [30,45], [85,70], [71,80], [60,78], [55,52], [80,91]])
# 使用K-Means聚類算法
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
# 獲取聚類中心和聚類標簽
centroids = kmeans.cluster_centers_
labels = kmeans.labels_
# 繪制數據和聚類中心
colors = ["g.","r."]
for i in range(len(X)):
plt.plot(X[i][0], X[i][1], colors[labels[i]], markersize=10)
plt.scatter(centroids[:, 0], centroids[:, 1], marker="x", s=150, linewidths=5, zorder=10)
plt.show()
上面的代碼演示了如何使用K-Means聚類算法將數據分成2個集群并繪制數據和聚類中心的散點圖。首先,我們導入需要的庫并生成一個2D數據集。然后,我們使用KMeans類指定聚類數,并擬合數據。最后,我們獲取聚類中心和聚類標簽,并使用 Matplotlib 庫繪制圖表,其中顏色表示聚類標簽,而 X 表示聚類中心。
除了K-Means之外,Python還提供了許多其他聚類算法,例如DBSCAN和層次聚類。此外,我們還可以使用seaborn庫中的聚類熱圖來可視化聚類結果。聚類熱圖通過顏色編碼距離矩陣來查看相似性,使我們可以輕松地比較樣本之間的關系。
在Python中聚類并繪制圖表非常簡單,這為數據科學家和機器學習從業者提供了強大的工具,用于探索、理解和分析數據。
上一篇vue取消黃色警告
下一篇python 服務器日志