Python 爬蟲是一種非常實用的技術,可以用于獲取互聯網上的各種數據。下面我將介紹如何使用 Python 爬蟲實操。
# 導入必要的庫 import requests from bs4 import BeautifulSoup # 構造請求,獲取網頁源代碼 url = 'https://www.baidu.com/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 找出所需信息 title = soup.find('title').text print('網站標題:', title)
首先是導入必要的庫,requests 用于發送 HTTP 請求,BeautifulSoup 用于解析 HTML 代碼。
接著構造請求,獲取網頁源代碼,需要傳入請求的 URL 和請求頭信息。這里的請求頭是模擬瀏覽器發送的請求頭。
然后使用 BeautifulSoup 解析 HTML 代碼,查找所需信息,這里是網站的標題。
最后打印出網站標題。