網(wǎng)站導(dǎo)航

降重是否會(huì)越來越困難

降重是否會(huì)越來越困難？

隨著數(shù)據(jù)量的增大，降重的困難肯定是越來越困難的。就像百度搜索一個(gè)內(nèi)容，但是結(jié)果往往呈現(xiàn)出來的都是有相同、類似的觀點(diǎn)和內(nèi)容。但是我們可以采用降重的方法來降低數(shù)據(jù)的重復(fù)率，從而推薦出優(yōu)秀的內(nèi)容。

為什么去重越來越困難

1、信息增量太多

每天都會(huì)有大量的數(shù)據(jù)入到數(shù)據(jù)庫里面進(jìn)行保存，在海量的數(shù)據(jù)下，你想數(shù)據(jù)不重復(fù)肯定是很困難的。

就例如：在學(xué)校里面同名字的學(xué)生肯定是有的，那如果放眼到全國呢？數(shù)據(jù)多了本身就具備重復(fù)的結(jié)果

數(shù)據(jù)庫數(shù)據(jù)庫提取方式是基于關(guān)鍵詞的匹配和篩選在來推推薦的，也就是產(chǎn)生數(shù)據(jù)時(shí)有很多人都會(huì)采用相同的觀點(diǎn)，那么基于關(guān)鍵詞匹配出來的文章肯定是具有重復(fù)的內(nèi)容推薦。

2、互聯(lián)網(wǎng)抄襲成風(fēng)。

很多原創(chuàng)內(nèi)容在網(wǎng)上被抄來抄去，改來改去。有很多同學(xué)都時(shí)借鑒別人之手，直接套來使用。那么這樣的同質(zhì)化的內(nèi)容肯定是越來越重的。為什么有的時(shí)候很多搜索結(jié)果文章感覺都是差不多的存在

降重的方法有那些

1、基于簽名算法與文本內(nèi)容對(duì)比判斷

最簡(jiǎn)單的方式莫過于直接對(duì)比一個(gè)字一個(gè)字的都對(duì)2個(gè)文件的或者網(wǎng)頁的數(shù)據(jù)內(nèi)容，如果發(fā)現(xiàn)是一致就不在進(jìn)行結(jié)果展示，當(dāng)時(shí)這樣的效率會(huì)很低，你直接用文章內(nèi)容對(duì)比，就像有A、B兩組各1000人來進(jìn)行一對(duì)一的比較，那如果有10w、100w呢？是不是特別費(fèi)勁

所以可以基于MD5、SHA1簽名散列算法，可以產(chǎn)生出一個(gè)128位（16字節(jié)）、160位的散列值（hash value），如果你文章內(nèi)容相同那么散列值一定是相同的，這樣就比較省事了

2、基于分詞技術(shù)來進(jìn)行內(nèi)容重復(fù)檢測(cè)

雖然直接對(duì)比可以檢測(cè)是否重復(fù)，但本身如果加密的算法進(jìn)行處理就比較費(fèi)時(shí)，如果文章內(nèi)容很相似時(shí)候可能也會(huì)被推薦上去。因?yàn)镸D5哪怕只有1個(gè)字節(jié)值不同，其MD5簽名值也會(huì)差別很大，所以適用于“完整性”，不適用與“相似性”

如果我們能將每一個(gè)長(zhǎng)文本用一個(gè)集合來表示，就能將長(zhǎng)文本的相似度用minHash來解決了。基于內(nèi)容結(jié)果中來進(jìn)行分詞的篩選。這樣就可以針對(duì)相似文章的快速篩選

舉例：待判定的數(shù)據(jù)為A{我是PHP智慧與能力，我來自中國}

需要判斷數(shù)據(jù)庫集合為：

B{我是一只大象}

C{PHP是世界上最好的語言}

D{這事和我沒關(guān)系，我是湊數(shù)的}

使用分詞將上述文本集合化：

A{我，PHP，智慧，能力，來自，中國}

B{我，大象}

C{PHP，世界，語言}

D{事，我，湊數(shù)，關(guān)系}

判斷結(jié)論：biu biu biu biu，轉(zhuǎn)化為分詞集合后，可以快速判斷A與B的相似度最高，當(dāng)然實(shí)際執(zhí)行過程中，除了分詞還得考慮詞頻，用這種方法對(duì)長(zhǎng)文本進(jìn)行相似度檢測(cè)，準(zhǔn)確率非常高（文本越長(zhǎng)越準(zhǔn)）

如有感悟，歡迎關(guān)注(*￣︶￣)

上一篇大數(shù)據(jù)管理師證書

下一篇登月探測(cè)器嫦娥使用什么操作系統(tǒng)

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

降重是否會(huì)越來越困難

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

降重是否會(huì)越來越困難

相關(guān)文章