Python爬蟲是一種常見的網絡爬蟲類型,它在網絡上收集數據并存儲到本地或其他應用程序中。Python爬蟲通常利用第三方庫來分析并提取網頁的信息,例如BeautifulSoup、Requests等。
import requests from bs4 import BeautifulSoup url = 'http://example.com' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') links = soup.find_all('a') for link in links: print(link.get('href'))
上面是一個簡單的Python爬蟲樣例。它首先從指定的URL獲取響應,然后使用BeautifulSoup庫解析HTML代碼。接下來,它查找頁面中的所有鏈接,并使用get()方法獲取鏈接的URL。最后,它將鏈接打印到控制臺中。