什么是分層聚類?
分層聚類是一種聚類方法,它將數據集中的每個數據點都看作是一個單獨的簇,再不斷地將相似的簇合并,終形成一個大的簇,這個過程就像是建立一棵樹,因此也被稱為層次聚類。
為什么要使用分層聚類?
分層聚類可以將相似的數據點聚集在一起,形成一個大的簇,這樣可以更好地理解數據之間的相似性和差異性。同時,分層聚類還可以幫助我們發現數據中的異常值和噪聲點。
實現分層聚類?
1. 導入數據
dasdas中。
2. 數據清洗
在進行分層聚類之前,我們需要對數據進行清洗,包括去除缺失值、異常值等。
3. 特征選擇
在進行分層聚類之前,我們需要選擇一些特征,這些特征應該能夠很好地區分不同的數據點。
4. 距離計算
在分層聚類中,我們需要計算數據點之間的距離,常用的距離計算方法包括歐幾里得距離、曼哈頓距離、余弦相似度等。
5. 聚類算法
6. 可視化
atplotlib庫將聚類結果可視化,以便更好地理解數據點之間的相似性和差異性。
dasatplotlib庫將聚類結果可視化。