色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

降重是否會(huì)越來越困難

降重是否會(huì)越來越困難?

隨著數(shù)據(jù)量的增大,降重的困難肯定是越來越困難的。就像百度搜索一個(gè)內(nèi)容,但是結(jié)果往往呈現(xiàn)出來的都是有相同、類似的觀點(diǎn)和內(nèi)容。但是我們可以采用 降重的方法來降低數(shù)據(jù)的重復(fù)率,從而推薦出優(yōu)秀的內(nèi)容。

為什么去重越來越困難

1、信息增量太多

每天都會(huì)有大量的數(shù)據(jù)入到數(shù)據(jù)庫里面進(jìn)行保存,在海量的數(shù)據(jù)下,你想數(shù)據(jù)不重復(fù)肯定是很困難的。

就例如:在學(xué)校里面同名字的學(xué)生肯定是有的,那如果放眼到全國呢? 數(shù)據(jù)多了本身就具備重復(fù)的結(jié)果

數(shù)據(jù)庫數(shù)據(jù)庫提取方式是基于關(guān)鍵詞的匹配和篩選在來推推薦的,也就是產(chǎn)生數(shù)據(jù)時(shí)有很多人都會(huì)采用相同的觀點(diǎn),那么基于關(guān)鍵詞匹配出來的文章肯定是具有重復(fù)的內(nèi)容推薦。

2、互聯(lián)網(wǎng)抄襲成風(fēng)。

很多原創(chuàng)內(nèi)容在網(wǎng)上被抄來抄去,改來改去。有很多同學(xué)都時(shí)借鑒別人之手,直接套來使用。那么這樣的同質(zhì)化的內(nèi)容肯定是越來越重的。為什么有的時(shí)候很多搜索結(jié)果文章感覺都是差不多的存在

降重的方法有那些

1、基于簽名算法與文本內(nèi)容對(duì)比判斷

最簡(jiǎn)單的方式莫過于直接對(duì)比一個(gè)字一個(gè)字的都對(duì)2個(gè)文件的或者網(wǎng)頁的數(shù)據(jù)內(nèi)容,如果發(fā)現(xiàn)是一致就不在進(jìn)行結(jié)果展示,當(dāng)時(shí)這樣的效率會(huì)很低,你直接用文章內(nèi)容對(duì)比,就像有A、B兩組各1000人來進(jìn)行一對(duì)一的比較,那如果有10w、100w呢?是不是特別費(fèi)勁

所以可以基于MD5、SHA1簽名散列算法,可以產(chǎn)生出一個(gè)128位(16字節(jié))、160位的散列值(hash value),如果你文章內(nèi)容相同那么散列值一定是相同的,這樣就比較省事了

2、基于分詞技術(shù)來進(jìn)行內(nèi)容重復(fù)檢測(cè)

雖然直接對(duì)比可以檢測(cè)是否重復(fù),但本身如果加密的算法進(jìn)行處理就比較費(fèi)時(shí),如果文章內(nèi)容很相似時(shí)候可能也會(huì)被推薦上去。因?yàn)镸D5哪怕只有1個(gè)字節(jié)值不同,其MD5簽名值也會(huì)差別很大,所以適用于“完整性”,不適用與“相似性”

如果我們能將每一個(gè)長(zhǎng)文本用一個(gè)集合來表示,就能將長(zhǎng)文本的相似度用minHash來解決了。基于內(nèi)容結(jié)果中來進(jìn)行分詞的篩選。這樣就可以針對(duì)相似文章的快速篩選

舉例:待判定的數(shù)據(jù)為A{我是PHP智慧與能力,我來自中國}

需要判斷數(shù)據(jù)庫集合為:

B{我是一只大象}

C{PHP是世界上最好的語言}

D{這事和我沒關(guān)系,我是湊數(shù)的}

使用分詞將上述文本集合化:

A{我,PHP,智慧,能力,來自,中國}

B{我,大象}

C{PHP,世界,語言}

D{事,我,湊數(shù),關(guān)系}

判斷結(jié)論:biu biu biu biu,轉(zhuǎn)化為分詞集合后,可以快速判斷A與B的相似度最高,當(dāng)然實(shí)際執(zhí)行過程中,除了分詞還得考慮詞頻,用這種方法對(duì)長(zhǎng)文本進(jìn)行相似度檢測(cè),準(zhǔn)確率非常高(文本越長(zhǎng)越準(zhǔn))

如有感悟,歡迎關(guān)注(* ̄︶ ̄)