adasyn算法的優(yōu)缺點(diǎn)?
ADASYN是自適應(yīng)綜合過采樣方法,ADASYN算法的關(guān)鍵思想是使用密度分布作為準(zhǔn)則來自動確定每個(gè)少數(shù)數(shù)據(jù)示例需要生成的合成樣本的數(shù)量,即在少數(shù)實(shí)例的密度較低的特征空間區(qū)域中生成更多的合成實(shí)例,而在密度較高的特征空間區(qū)域生成較少的合成實(shí)例。ADASYN(Adaptive Synthetic)根據(jù)數(shù)據(jù)集的總體樣本分布情況來為不同的少數(shù)類樣本生成不同數(shù)目的新樣本。相對于SMOTE算法,其對每一個(gè)少數(shù)類樣本的重視程度不同
計(jì)算不平衡度 假設(shè)少數(shù)類數(shù)目 $m_s$,多數(shù)類數(shù)目 $m_l$,則不平衡度\[d=m_s/m_l\]
當(dāng)不平衡度大于一個(gè)閥值時(shí),我們才會采取以下操作
計(jì)算需要少數(shù)類中合成的樣本數(shù)量
\[G=(m_l-m_s)\times\beta\]
這里的 $\beta$ 用來指定想要的數(shù)據(jù)平衡度
對于每個(gè)少數(shù)類中的樣本點(diǎn),通過計(jì)算歐氏距離得到在全部數(shù)據(jù)中的k個(gè)近鄰,定義以下比例,其中 $\Delta_i$為 $\boldsymbol{x_i}$ 的k個(gè)近鄰中多數(shù)類樣本點(diǎn)的個(gè)數(shù)
\[r_i=\Delta_i/k, \qquad i=1,\cdots,m_s\]
歸一化
\[\hat{r_i}=r_i/\sum_{i=1}^{m_s}r_i\]
計(jì)算 $\boldsymbol{x_i}$ 需要產(chǎn)生的樣本數(shù)
\[g_i=\hat{r_i}\times G\]
擴(kuò)大樣本對于每個(gè)少數(shù)類的樣本點(diǎn) $\boldsymbol{x_i}$ ,需要生成 $g_i$ 個(gè)新樣本。在其k個(gè)近鄰中,隨機(jī)選取一個(gè)少數(shù)類樣本 $\boldsymbol{x_{zi}}$,
\[\boldsymbol{x_{new}} = \boldsymbol{x_i}+rand(0,1)(\boldsymbol{x_{zi}}-\boldsymbol{x_i})\]
以上過程循環(huán) $g_i$ 次,最后再對每個(gè)少數(shù)類的樣本點(diǎn)都進(jìn)行上述操作
ADASYN算法的關(guān)鍵思想是使用密度分布 $\hat{r_i}$ 作為標(biāo)準(zhǔn)來自動確定每個(gè)少數(shù)類需要生成的合成樣本的數(shù)量。 $\hat{r_i}$ 是根據(jù)少數(shù)類樣本的學(xué)習(xí)難度來確定的權(quán)重,所以ADASYN會強(qiáng)制模型學(xué)習(xí)那些難以學(xué)習(xí)的少數(shù)類樣本