PHPPython和?
Python 和 Node.js 都可以用來編寫爬蟲程序。爬蟲程序其實是模擬瀏覽器發起 HTTP 請求,然后解析 HTTP 的響應體內容,提取我們需要的數據。
如果需要 Node.js 來寫爬蟲。需要用到 request 模塊 和 cheerio模塊。
request 模塊:獲取目標頁面的html代碼
cheerio 模塊:被稱為 Node.js 版的 jQuery 。它類似jQuery的語法,使用起來比較方便。用其實為了解析 HTTP 請求的響應體,對 HTML 代碼做處理。Python 拼接強大的第三方的庫,以及簡潔的語法,被更廣運用于編寫爬蟲。具體用到的庫,大概如下:
發起網絡請求有庫有: urllib、Requests 。
解析響應體內容:RE(正則表達式的 Python 庫)、beautiful Soup(內容提取神器)、 lxml 庫(神器)
爬蟲框架有:Scrapy
可見,,Python 有豐富的庫可以選擇,所以它更加適合用來編寫爬蟲程序。
-----------------------------------------------
喜歡的、覺得有用的麻煩點個贊,萬分感謝~
個人微信公眾號:極客猴(ID:Geek_monkey)
自己堅持分享 Python 原創干貨,包括基礎入門,進階技巧,網絡爬蟲,數據分析,Web 應用開發等。歡迎關注~