什么是聚類分析?
聚類分析:將個體(樣品)或者對象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。其主要依據(jù)是聚到同一個數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。常用聚類方法:系統(tǒng)聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。注意事項:
1. 系統(tǒng)聚類法可對變量或者記錄進(jìn)行分類,K-均值法只能對記錄進(jìn)行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對變量的多元正態(tài)性,方差齊性等要求較高。應(yīng)用領(lǐng)域:細(xì)分市場,消費行為劃分,設(shè)計抽樣方案等優(yōu)點:聚類分析模型的優(yōu)點就是直觀,結(jié)論形式簡明。缺點:在樣本量較大時,要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實踐中有時盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無任何內(nèi)在聯(lián)系,此時,如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)模牵垲惙治瞿P捅旧韰s無法識別這類錯誤。