GitHub上有哪些優(yōu)秀的Java爬蟲項目?
首先聲明一點,業(yè)界一般都是用pyhon去做爬蟲。當(dāng)然用java語言開發(fā)的很有很多
一、nutch大名鼎鼎的Doug Cutting發(fā)起的爬蟲項目,Apache下頂級的項目,是一個開源的網(wǎng)絡(luò)爬蟲,采用MapReduce分布式爬取和解析網(wǎng)頁信息。
github地址:https://github.com/apache/nutch,上面附有官方地址。官方:
二、Heritrixjava開發(fā)的開源Web爬蟲系統(tǒng),用來獲取完整的、精確的站點內(nèi)容的深度復(fù)制,擴(kuò)展性強(qiáng),功能齊全,文檔完整。
github地址:https://github.com/internetarchive/heritrix3,里面包含了文檔等信息。
三、Gecco輕量、易用的網(wǎng)絡(luò)爬蟲框架,整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等優(yōu)秀框架。有優(yōu)秀的可擴(kuò)展性,框架基于開閉原則進(jìn)行設(shè)計,對修改關(guān)閉、對擴(kuò)展開放。
github地址:https://github.com/xtuhcy/gecco,內(nèi)含官網(wǎng)地址。
四、crawler4j是一個開源的Java類庫提供一個用于抓取Web頁面的簡單接口。簡單易于使用,支持多線程、支持代理、過濾重復(fù)URL等功能??梢栽趲追昼妰?nèi)設(shè)置一個多線程的網(wǎng)絡(luò)爬蟲。
github地址:https://github.com/yasserg/crawler4j,內(nèi)含使用文檔。
還有很多其他的java優(yōu)秀爬蟲項目,就不一一說來了,如WebCollector、WebMagic、Spiderman、SeimiCrawler一大堆的。另外實用就好,沒必要全部去了解。