爬蟲是一種自動化工具,可以用來獲取Web頁面上的不同類型文件。在獲取Web頁面上的文件時,CSS文件是其中一個經常被提到的。下面介紹如何通過爬蟲獲取CSS文件。
import requests from bs4 import BeautifulSoup url = "https://www.example.com" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') css_links = [] #篩選所有CSS鏈接 for link in soup.find_all('link'): if link.get('rel') == ['stylesheet']: css_links.append(link.get('href')) #下載CSS文件 for link in css_links: response = requests.get(link) file_name = link.split('/')[-1] with open(file_name, 'wb') as f: f.write(response.content)
首先我們需要使用requests庫和BeautifulSoup庫下載并解析目標網站的HTML頁面。之后我們要篩選所有的CSS鏈接。CSS文件通常都被包含在<link>標簽中,同時標簽中的'rel'屬性的值為'stylesheet'。
我們可以使用find_all()函數來查找所有包含CSS文件的<link>標簽,之后通過get()函數獲得每個標簽的 href 屬性,得到CSS鏈接。
最后,我們遍歷整個CSS鏈接列表,并使用requests庫下載每個文件內容,使用文件名作為文件名,保存在本地。
通過這種方式,我們就可以方便地獲取一個Web網站上的所有CSS文件。