網(wǎng)站導(dǎo)航

adasyn算法的優(yōu)缺點(diǎn)

adasyn算法的優(yōu)缺點(diǎn)？

ADASYN是自適應(yīng)綜合過采樣方法，ADASYN算法的關(guān)鍵思想是使用密度分布作為準(zhǔn)則來自動確定每個(gè)少數(shù)數(shù)據(jù)示例需要生成的合成樣本的數(shù)量，即在少數(shù)實(shí)例的密度較低的特征空間區(qū)域中生成更多的合成實(shí)例，而在密度較高的特征空間區(qū)域生成較少的合成實(shí)例。

ADASYN(Adaptive Synthetic)根據(jù)數(shù)據(jù)集的總體樣本分布情況來為不同的少數(shù)類樣本生成不同數(shù)目的新樣本。相對于SMOTE算法，其對每一個(gè)少數(shù)類樣本的重視程度不同

計(jì)算不平衡度假設(shè)少數(shù)類數(shù)目 $m_s$，多數(shù)類數(shù)目 $m_l$，則不平衡度

\[d=m_s/m_l\]

當(dāng)不平衡度大于一個(gè)閥值時(shí)，我們才會采取以下操作

計(jì)算需要少數(shù)類中合成的樣本數(shù)量

\[G=(m_l-m_s)\times\beta\]

這里的 $\beta$ 用來指定想要的數(shù)據(jù)平衡度

對于每個(gè)少數(shù)類中的樣本點(diǎn)，通過計(jì)算歐氏距離得到在全部數(shù)據(jù)中的k個(gè)近鄰，定義以下比例，其中 $\Delta_i$為 $\boldsymbol{x_i}$ 的k個(gè)近鄰中多數(shù)類樣本點(diǎn)的個(gè)數(shù)

\[r_i=\Delta_i/k, \qquad i=1,\cdots,m_s\]

歸一化

\[\hat{r_i}=r_i/\sum_{i=1}^{m_s}r_i\]

計(jì)算 $\boldsymbol{x_i}$ 需要產(chǎn)生的樣本數(shù)

\[g_i=\hat{r_i}\times G\]

擴(kuò)大樣本對于每個(gè)少數(shù)類的樣本點(diǎn) $\boldsymbol{x_i}$ ，需要生成 $g_i$ 個(gè)新樣本。在其k個(gè)近鄰中，隨機(jī)選取一個(gè)少數(shù)類樣本 $\boldsymbol{x_{zi}}$，

\[\boldsymbol{x_{new}} = \boldsymbol{x_i}+rand(0,1)(\boldsymbol{x_{zi}}-\boldsymbol{x_i})\]

以上過程循環(huán) $g_i$ 次，最后再對每個(gè)少數(shù)類的樣本點(diǎn)都進(jìn)行上述操作

ADASYN算法的關(guān)鍵思想是使用密度分布 $\hat{r_i}$ 作為標(biāo)準(zhǔn)來自動確定每個(gè)少數(shù)類需要生成的合成樣本的數(shù)量。 $\hat{r_i}$ 是根據(jù)少數(shù)類樣本的學(xué)習(xí)難度來確定的權(quán)重，所以ADASYN會強(qiáng)制模型學(xué)習(xí)那些難以學(xué)習(xí)的少數(shù)類樣本

上一篇200連接時(shí)出現(xiàn)通用串口父設(shè)備初始化失敗

下一篇生化危機(jī)6聯(lián)網(wǎng)破解之后不顯示連接服務(wù)器

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

adasyn算法的優(yōu)缺點(diǎn)

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

adasyn算法的優(yōu)缺點(diǎn)

相關(guān)文章