Python是一種流行的編程語言,特別適合于編寫腳本和自動化任務。其中一個強大的功能是可以使用Python進行網頁抓取。網頁抓取可以獲取互聯網上的數據并將其用于各種目的。在本文中,我們將介紹如何使用Python進行網頁抓取。
要使用Python進行網頁抓取,需要使用一個叫做Requests的庫。這個庫可以處理HTTP請求,獲取網頁內容和解析網頁。以下是一個使用Requests庫進行網頁抓取的Python代碼:
import requests response = requests.get("https://www.example.com") content = response.content
該代碼向https://www.example.com發送GET請求,并將網頁內容存儲在變量content中。
有時我們需要獲取的數據非常龐大,我們需要一種方法來將其壓縮。Python中一個流行的庫zipfile,可以用于壓縮和解壓縮文件。以下是一個將網頁抓取內容壓縮為zip文件的Python代碼:
import zipfile with zipfile.ZipFile("website.zip", "w") as myzip: myzip.writestr("website.html", content)
該代碼使用writestr函數將網頁抓取內容寫入名為website.html的文件,并將該文件壓縮為名為website.zip的zip文件。
結合上面兩段代碼,我們可以快速地實現網頁抓取和壓縮。以下是一個完整的Python代碼示例:
import requests import zipfile response = requests.get("https://www.example.com") content = response.content with zipfile.ZipFile("website.zip", "w") as myzip: myzip.writestr("website.html", content)
該代碼將https://www.example.com的網頁內容抓取并壓縮到名為website.zip的zip文件中。
上一篇ejs 解析json