色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

LoalaSam怎么使用

吉茹定2年前18瀏覽0評論

LoalaSam怎么使用?

LoalaSam,即網絡爬蟲,是一個由c/c++開發,運行在Windows平臺上的網絡爬蟲(蜘蛛)程序,它可以高效地從互聯網上獲取海量資源,這些資源包括網頁文本信息,圖片,音頻,視頻以及其他類型的二進制文件資源。 IP地址搜索策略 先賦予爬蟲一個起始的IP地址,然后根據IP地址遞增的方式搜索本IP地址段后的每一個WWW地址中的文檔,它完全不考慮各文檔中指向其它Web站點的超級鏈接地址。優點是搜索全面,能夠發現那些沒被其它文檔引用的新文檔的信息源;缺點是不適合大規模搜索。 深度優先搜索策略 深度優先搜索是一種在開發爬蟲早期使用較多的方法。它的目的是要達到被搜索結構的葉結點(即那些不包含任何超鏈的HTML文件)。在一個HTML文件中,當一個超鏈被選擇后,被鏈接的HTML文件將執行深度優先搜索,即在搜索其余的超鏈結果之前必須先完整地搜索單獨的一條鏈。深度優先搜索沿著HTML文件上的超鏈走到不能再深入為止,然后返回到某一個HTML文件,再繼續選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時,說明搜索已經結束。優點是能遍歷一個Web站點或深層嵌套的文檔集合;缺點是因為Web結構相當深,,有可能造成一旦進去,再也出不來的情況發生。 寬度優先搜索策略 在寬度優先搜索中,先搜索完一個Web頁面中所有的超級鏈接,然后再繼續搜索下一層,直到底層為止。例如,一個HTML文件中有三個超鏈,選擇其中之一并處理相應的HTML文件,然后不再選擇第二個HTML文件中的任何超鏈,而是返回并選擇第二個超鏈,處理相應的HTML文件,再返回,選擇第三個超鏈并處理相應的HTML文件。一旦一層上的所有超鏈都己被選擇過,就可以開始在剛才處理過的HIML文件中搜索其余的超鏈。這就保證了對淺層的首先處理。當遇到一個無窮盡的深層分支時,不會導致陷進WWW中的深層文檔中出現出不來的情況發生。寬度優先搜索策略還有一個優點,即它能在兩個HTML文件之間找到最短路徑。寬度優先搜索策略通常是實現爬蟲的最佳策略,因為它容易實現,而且具備大多數期望的功能。但是如果要遍歷一個指定的站點或者深層嵌套的HTML文件集,用寬度優先搜索策略則需要花費比較長的時間才能到達深層的HTML文件。綜合考慮以上幾種策略和國內信息導航系統搜索信息的特點,國內一般采用以寬度優先搜索策略為主、線性搜索策略為輔的搜索策略。對于某些不被引用的或很少被引用的HTML文件,寬度優先搜索策略可能會遺漏這些孤立的信息源,可以用線性搜索策略作為它的補充。 專業搜索引擎的爬蟲策略 專業搜索引擎網絡爬蟲通常采用“最好優先”原則訪問WEB,即為快速、有效地獲得更多的與主題相關的頁面(簡稱“回報”),每次選擇“最有價值”的鏈接進行訪問。由于鏈接包含于頁面之中,而通常具有較高價值的頁面包含的鏈接也具有較高的價值,因而對鏈接價值的評價有時也轉換為對頁面價值的評價。

遍歷csS,LoalaSam怎么使用