scripting生成出來的頁面的方法嗎?
當然有了!
爬蟲幾乎只要有網絡模塊的語言都能寫,其中的佼佼者就是Python,而Python有非常多的第三方庫支持,如果需要爬取js生成的頁面(比如單頁應用),就需要一些模擬瀏覽器的庫了。
Selenium 是一個項目的名稱,包含了很多工具和api和一些自動化測試工具,能模擬瀏覽器的運行和操作,也有人拿他用來當做爬蟲工具,因此也是很方便的
Webdriver 是Selenium里的一個支持瀏覽器自動化的工具。它包括一組為不同語言提供的類庫和“驅動”(drivers)可以使瀏覽器上的動作自動化。
WebDriver 還為很多語言提供類庫:Java,C#,Ruby,JavaScript,Python,PHP,Perl和一些其他語言。這樣方便的便利,不需要去學習WebDriver獨有的腳本語言,使用WebDriver就像在自己項目中使用一個第三方庫一樣。
PhantomJS 不需要GUI,可以直接命令行中進行處理,內核是WebKit引擎,非常適合爬蟲使用.
介紹完了先安裝:
pip install seleniumPhantomJS的下載需要去官網:http://phantomjs.org/download.html就要開始寫代碼了:
from selenium import webdriver
browser = webdriver.PhantomJS()
url = 'https://www.toutiao.com'
browser.get(url)
browser.implicitly_wait(2) # 等待2秒讓js直行完成
剩下的就需要你自己根據需求來編寫代碼了,還有selenium的中文文檔在這里:https://selenium-python-zh.readthedocs.io/en/latest/