色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

adasyn算法的優(yōu)缺點(diǎn)

錢諍諍2年前18瀏覽0評論

adasyn算法的優(yōu)缺點(diǎn)?

ADASYN是自適應(yīng)綜合過采樣方法,ADASYN算法的關(guān)鍵思想是使用密度分布作為準(zhǔn)則來自動確定每個(gè)少數(shù)數(shù)據(jù)示例需要生成的合成樣本的數(shù)量,即在少數(shù)實(shí)例的密度較低的特征空間區(qū)域中生成更多的合成實(shí)例,而在密度較高的特征空間區(qū)域生成較少的合成實(shí)例。

ADASYN(Adaptive Synthetic)根據(jù)數(shù)據(jù)集的總體樣本分布情況來為不同的少數(shù)類樣本生成不同數(shù)目的新樣本。相對于SMOTE算法,其對每一個(gè)少數(shù)類樣本的重視程度不同

計(jì)算不平衡度 假設(shè)少數(shù)類數(shù)目 $m_s$,多數(shù)類數(shù)目 $m_l$,則不平衡度

\[d=m_s/m_l\]

當(dāng)不平衡度大于一個(gè)閥值時(shí),我們才會采取以下操作

計(jì)算需要少數(shù)類中合成的樣本數(shù)量

\[G=(m_l-m_s)\times\beta\]

這里的 $\beta$ 用來指定想要的數(shù)據(jù)平衡度

對于每個(gè)少數(shù)類中的樣本點(diǎn),通過計(jì)算歐氏距離得到在全部數(shù)據(jù)中的k個(gè)近鄰,定義以下比例,其中 $\Delta_i$為 $\boldsymbol{x_i}$ 的k個(gè)近鄰中多數(shù)類樣本點(diǎn)的個(gè)數(shù)

\[r_i=\Delta_i/k, \qquad i=1,\cdots,m_s\]

歸一化

\[\hat{r_i}=r_i/\sum_{i=1}^{m_s}r_i\]

計(jì)算 $\boldsymbol{x_i}$ 需要產(chǎn)生的樣本數(shù)

\[g_i=\hat{r_i}\times G\]

擴(kuò)大樣本對于每個(gè)少數(shù)類的樣本點(diǎn) $\boldsymbol{x_i}$ ,需要生成 $g_i$ 個(gè)新樣本。在其k個(gè)近鄰中,隨機(jī)選取一個(gè)少數(shù)類樣本 $\boldsymbol{x_{zi}}$,

\[\boldsymbol{x_{new}} = \boldsymbol{x_i}+rand(0,1)(\boldsymbol{x_{zi}}-\boldsymbol{x_i})\]

以上過程循環(huán) $g_i$ 次,最后再對每個(gè)少數(shù)類的樣本點(diǎn)都進(jìn)行上述操作

ADASYN算法的關(guān)鍵思想是使用密度分布 $\hat{r_i}$ 作為標(biāo)準(zhǔn)來自動確定每個(gè)少數(shù)類需要生成的合成樣本的數(shù)量。 $\hat{r_i}$ 是根據(jù)少數(shù)類樣本的學(xué)習(xí)難度來確定的權(quán)重,所以ADASYN會強(qiáng)制模型學(xué)習(xí)那些難以學(xué)習(xí)的少數(shù)類樣本