信息檢索系統(tǒng)三個數(shù)據(jù)結構?
大數(shù)據(jù)的多樣性使得數(shù)據(jù)的信息檢索系統(tǒng)被分為三種數(shù)據(jù)結構,分別是:結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。
結構化數(shù)據(jù)
結構化數(shù)據(jù)也稱作行數(shù)據(jù),是由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù),簡單來說就是https://www.b5b6.com/shujuku/。嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關系型https://www.b5b6.com/shujuku/進行存儲和管理。
結構化數(shù)據(jù)標記,是一種能讓網(wǎng)站以更好的姿態(tài)展示在搜索結果當中的方式。做了結構化數(shù)據(jù)標記,便能使網(wǎng)站在搜索結果中良好地展示豐富網(wǎng)頁摘要。
搜索引擎都支持標準的結構化數(shù)據(jù)標記,以便為用戶提供更好的上網(wǎng)體驗。網(wǎng)頁內(nèi)微數(shù)據(jù)標記可以幫助搜索引擎理解網(wǎng)頁上的信息,能更方便搜索引擎識別分類,判斷相關性。
同時結構化微數(shù)據(jù)可以讓搜索引擎提供更豐富的搜索結果摘要展現(xiàn),也就是為用戶的具體查詢提供幫助的詳細信息,讓用戶直接在搜索結果中看見你商品的重要信息。例如:商品的價格、名稱、庫存狀況(商品是否有貨)、評論者評分和評論等都可以在搜索結果摘要直接看到。
這些豐富網(wǎng)頁摘要可幫助用戶了解網(wǎng)站與他們的搜索內(nèi)容是否相關,可以讓網(wǎng)頁獲得更多點擊。
如在搜索結果中,部分展示了更多的星級評分、評論條數(shù)以及價格等因素,這樣無疑增加了網(wǎng)站的專業(yè)程度,且提高了客戶對網(wǎng)站的信任度,網(wǎng)站良好的曝光度無形中就提高了網(wǎng)站的點擊率與轉(zhuǎn)化率。
非結構化數(shù)據(jù)
與結構化數(shù)據(jù)相對的是不適于由https://www.b5b6.com/shujuku/二維表來表現(xiàn)的非結構化數(shù)據(jù)。
非結構化數(shù)據(jù)是數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便用https://www.b5b6.com/shujuku/二維邏輯表來表現(xiàn)的數(shù)據(jù)。
包括所有格式的辦公文檔、XML、HTML、各類報表、圖片和音頻、視頻信息等。支持非結構化數(shù)據(jù)的https://www.b5b6.com/shujuku/采用多值字段、了字段和變長字段機制進行數(shù)據(jù)項的創(chuàng)建和管理,廣泛應用于全文檢索和各種多媒體信息處理領域
半結構化數(shù)據(jù)
半結構化數(shù)據(jù)(semi-structured data)。在做一個信息系統(tǒng)設計時肯定會涉及到數(shù)據(jù)的存儲,一般我們都會將系統(tǒng)信息保存在某個指定的關系https://www.b5b6.com/shujuku/中。我們會將數(shù)據(jù)按業(yè)務分類,并設計相應的表,然后將對應的信息保存到相應的表中。比如我們做一個業(yè)務系統(tǒng),要保存員工基本信息:工號、姓名、性別、出生日期等等;我們就會建立一個對應的staff表。
但不是系統(tǒng)中所有信息都可以這樣簡單的用一個表中的字段就能對應的。
半結構化數(shù)據(jù)(semi-structured data)模型在https://www.b5b6.com/shujuku/系統(tǒng)中有著獨特的地位:
(1)它是一種適于https://www.b5b6.com/shujuku/集成的數(shù)據(jù)模型,也就是說,適于描述包含在兩個或多個https://www.b5b6.com/shujuku/(這些https://www.b5b6.com/shujuku/含有不同模式的相似數(shù)據(jù))中的數(shù)據(jù)。
(2)它是一種標記服務的基礎模型,用于Web上共享信息。
半結構化數(shù)據(jù)中結構模式附著或相融與數(shù)據(jù)本身,數(shù)據(jù)自身就描述了其相應結構模式。具體來說,半結構化數(shù)據(jù)具有下述特征:
(1)數(shù)據(jù)結構自描述性。結構與數(shù)據(jù)相交融,在研究和應用中不需要區(qū)分“元數(shù)據(jù)”和“一般數(shù)據(jù)”(兩者合二為一)。
(2)數(shù)據(jù)結構描述的復雜性。結構難以納入現(xiàn)有的各種描述框架,實際應用中不易進行清晰的理解與把握。
(3)數(shù)據(jù)結構描述的動態(tài)性。數(shù)據(jù)變化通常會導致結構模式變化,整體上具有動態(tài)得結構模式。
常規(guī)的數(shù)據(jù)模型例如E-R模型、關系模型和對象模型恰恰與上述特點相反,因此可以成為結構化數(shù)據(jù)模型。而相對于結構化數(shù)據(jù),半結構化數(shù)據(jù)的構成更為復雜和不確定,從而也具有更高的靈活性,能夠適應更為廣泛的應用需求。