色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

webmagic詳解

劉柏宏2年前27瀏覽0評論

webmagic詳解?

WebMagic是一個開源的Java垂直爬蟲框架,目標是簡化爬蟲的開發流程,讓開發者專注于邏輯功能的開發。

設計原理

webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。

webmagic包含頁面抽取功能,開發者可以使用css selector、xpath和正則表達式進行鏈接和內容的提取,支持多個選擇器鏈式調用。

使用maven

webmagic使用maven管理依賴,在項目中添加對應的依賴即可使用webmagic:

WebMagic 使用slf4j-log4j12作為slf4j的實現.如果你自己定制了slf4j的實現,請在項目中去掉此依賴。

項目結構

webmagic主要包括兩個包:

webmagic-corewebmagic核心部分,只包含爬蟲基本模塊和基本抽取器。webmagic-core的目標是成為網頁爬蟲的一個教科書般的實現。

webmagic-extensionwebmagic的擴展模塊,提供一些更方便的編寫爬蟲的工具。包括注解格式定義爬蟲、JSON、分布式等支持。

webmagic還包含兩個可用的擴展包,因為這兩個包都依賴了比較重量級的工具,所以從主要包中抽離出來,這些包需要下載源碼后自己編譯。

java web框架,webmagic詳解