網(wǎng)站導(dǎo)航

GitHub上有哪些優(yōu)秀的Java爬蟲項目

java

錢琪琛2年前19瀏覽0評論

GitHub上有哪些優(yōu)秀的Java爬蟲項目？

首先聲明一點，業(yè)界一般都是用pyhon去做爬蟲。當(dāng)然用java語言開發(fā)的很有很多

一、nutch

大名鼎鼎的Doug Cutting發(fā)起的爬蟲項目，Apache下頂級的項目，是一個開源的網(wǎng)絡(luò)爬蟲，采用MapReduce分布式爬取和解析網(wǎng)頁信息。

github地址：https://github.com/apache/nutch，上面附有官方地址。官方：

二、Heritrix

java開發(fā)的開源Web爬蟲系統(tǒng)，用來獲取完整的、精確的站點內(nèi)容的深度復(fù)制，擴(kuò)展性強(qiáng)，功能齊全，文檔完整。

github地址：https://github.com/internetarchive/heritrix3，里面包含了文檔等信息。

三、Gecco

輕量、易用的網(wǎng)絡(luò)爬蟲框架，整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等優(yōu)秀框架。有優(yōu)秀的可擴(kuò)展性，框架基于開閉原則進(jìn)行設(shè)計，對修改關(guān)閉、對擴(kuò)展開放。

github地址：https://github.com/xtuhcy/gecco，內(nèi)含官網(wǎng)地址。

四、crawler4j

是一個開源的Java類庫提供一個用于抓取Web頁面的簡單接口。簡單易于使用，支持多線程、支持代理、過濾重復(fù)URL等功能?？梢栽趲追昼妰?nèi)設(shè)置一個多線程的網(wǎng)絡(luò)爬蟲。

github地址：https://github.com/yasserg/crawler4j，內(nèi)含使用文檔。

還有很多其他的java優(yōu)秀爬蟲項目，就不一一說來了，如WebCollector、WebMagic、Spiderman、SeimiCrawler一大堆的。另外實用就好，沒必要全部去了解。

java web項目,GitHub上有哪些優(yōu)秀的Java爬蟲項目

上一篇如何尋找一份與javaweb開發(fā)有關(guān)的工作

下一篇java項目如何創(chuàng)建包以及調(diào)試運(yùn)行

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

GitHub上有哪些優(yōu)秀的Java爬蟲項目

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

GitHub上有哪些優(yōu)秀的Java爬蟲項目

相關(guān)文章