色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

Elastisearch的實現(xiàn)原理是什么

錢良釵2年前21瀏覽0評論

Elastisearch的實現(xiàn)原理是什么?

ElasticSearch(業(yè)界常稱為ES)是一個全文搜索引擎,其特點為分布式,易擴展,實時文件存儲與提取!

ES的底層使用Apache鼎鼎大名的Lucence開源框架實現(xiàn),嚴(yán)格來說lucence只屬于一個工具包,提供了簡單的接口用于實現(xiàn)全文檢索!

lucence有什么用呢?

想想我們使用天貓購物的時候,假設(shè)輸入一個床,整個頁面能顯示木板床,水床,甚至有床墊,床單等購物信息出現(xiàn),就是因為所有這些與床有關(guān)的信息錄入時,以“床”這個詞作為分詞,建立索引,從而能得到各種與床有關(guān)的店鋪,商品等等!

如果用mysql,怎么實現(xiàn)呢,一大段商品信息描述,使用like'%床%'來查詢,本來就不走索引,字段還很大,別說億級別的數(shù)據(jù)了,幾百萬就能把一臺mysql服務(wù)器搞死!

那么ES怎么做的呢?跟mysql的查找方式相反,mysql是從文檔中提取關(guān)鍵字,而使用ES可以先提取出關(guān)鍵字(使用特定的分詞器),然后關(guān)鍵字出現(xiàn)的位置,建立倒排索引,明確的記錄關(guān)鍵詞所在的位置,舉例截圖如下:

圖中的箭頭所示的一列數(shù)據(jù)叫做Posting List,就是存放關(guān)鍵字對應(yīng)的位置;這樣在查詢羽毛球的時候,能迅速返回證件號1的數(shù)據(jù),查年齡20的時候,能迅速返回證件號2,3對應(yīng)的數(shù)據(jù);

圖中的Term就是Term Dictionary(字典),ES對字段Term Dictionary進行了排序,然后使用二分法查找數(shù)據(jù),查找到的效率為O(logN),為了避免磁盤IO的低性能,ES可以把字典放在了內(nèi)存中來提升查詢性能,那么問題來了,如果是億萬級的數(shù)據(jù),年齡還好,但是愛好可能也是億萬級別的量,這時候內(nèi)存可能就要爆了,于是就有了Term Index,就是將Term Dictionary再進行一次索引,比如說羽毛球這個詞,建立一個索引樹,使用羽字就可以定位到羽字開頭的所有Term Dictionary,然后在使用二分法查找到需要的關(guān)鍵詞,這樣就可以只把Term Index放入內(nèi)存,從而提升整個ES系統(tǒng)的處理能力;

上面就是ES大概的原理,當(dāng)然遠不止于此,作為大數(shù)據(jù)領(lǐng)域中文檔處理的佼佼者,ES大量使用在日志記錄與分析,全文檢索,數(shù)據(jù)統(tǒng)計等等情景中!

以上是ES簡單的原理說明,對于分詞器選擇,字典樹壓縮,如何使用等更多的東西沒有描述,以后找機會會詳細分享一次,請關(guān)注。。。