Python 是一種開源的編程語(yǔ)言,它具有簡(jiǎn)單、易學(xué)、易讀、易寫的特點(diǎn),被廣泛應(yīng)用于網(wǎng)絡(luò)爬蟲開發(fā)。在電影領(lǐng)域,Python 可以被用來爬取各大電影網(wǎng)站上的最新電影數(shù)據(jù)。
import requests
from bs4 import BeautifulSoup
# 創(chuàng)建一個(gè)請(qǐng)求
url = "https://movie.douban.com/top250"
response = requests.get(url)
# 解析 HTML 頁(yè)面
soup = BeautifulSoup(response.text, "html.parser")
# 獲取電影列表
movies = soup.select(".grid_view li")
# 遍歷每一個(gè)電影
for movie in movies:
# 獲取電影名稱
name = movie.select(".title")[0].text
# 獲取電影評(píng)分
score = movie.select(".rating_num")[0].text
# 獲取電影導(dǎo)演和演員
cast = movie.select(".bd p")[0].text.strip().split("\n")[0]
# 輸出電影信息
print(name, score, cast)
在上面的代碼中,我們使用了 requests 庫(kù)發(fā)送請(qǐng)求,獲取了豆瓣電影 top250 的數(shù)據(jù),并使用 BeautifulSoup 庫(kù)解析 HTML 頁(yè)面。在電影列表中,我們使用 CSS 選擇器提取了每個(gè)電影的名稱、評(píng)分和導(dǎo)演信息,并輸出了這些信息。
Python 爬蟲能夠方便地獲取大量電影數(shù)據(jù),可以用來做電影排行榜、推薦系統(tǒng)等。然而,我們也需要注意合法性問題,遵守 robots 協(xié)議,不要過度頻繁地爬取網(wǎng)站數(shù)據(jù),以免對(duì)網(wǎng)站產(chǎn)生不必要的壓力。
上一篇es 查詢嵌套json
下一篇python 腦電波模塊