Python作為一門著名的編程語言,近年來日漸流行。在互聯網時代,通過Python爬蟲技術實現網站數據的抓取也成為了一種趨勢。那么,如何利用Python爬蟲技術來爬取明星的相關信息呢?下面是本篇文章的內容。
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/celebrity/1018566/"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
response.encoding = "utf-8"
soup = BeautifulSoup(response.text, "html.parser")
name = soup.find("h1", class_="name").text # 姓名
img_url = soup.find("div", class_="avatar").find("img")["src"] # 頭像
works = [] # 代表作品
for i in soup.find("ul", class_="works").find_all("li"):
works.append(i.find("span", class_="title").text)
intro = soup.find("div", class_="intro").find("span").text # 簡介
print("姓名:", name)
print("頭像鏈接:", img_url)
print("代表作品:", works)
print("簡介:", intro)
在爬蟲中,首先需要對目標網站進行分析,提取出所需要的數據。例如本篇文章中,我們選擇了豆瓣電影中明星的個人主頁進行爬取,爬取的內容包括明星的姓名、頭像、代表作品以及簡介。
代碼中通過requests庫實現連接網站,而后使用BeautifulSoup庫解析網頁代碼,通過find()方法查找目標數據的位置,再利用text()、find_all()、[]等方法,提取出所需數據。在提取之前,需要進行headers設置的過程,以便不被目標網站封鎖IP的風險。
最后,通過print函數,將爬取的結果打印出來。
在實際應用中,爬取明星個人主頁只是Python爬蟲的一個應用方向,而實現目標數據的爬取可能存在不同難度的問題。在使用爬蟲時,需要注意對目標網站的頻率控制,以防對其正常運營造成影響。
下一篇vue之mv模式