隨著互聯(lián)網(wǎng)的發(fā)展和普及,人們對(duì)于電影的影評(píng)也越來(lái)越重視。然而,想要獲取到大量的影評(píng)信息卻不易。這時(shí)候,Python作為一門強(qiáng)大的編程語(yǔ)言,便可以派上用場(chǎng)了。下面,我們將介紹通過(guò)Python爬取影評(píng)的具體步驟。
import requests from bs4 import BeautifulSoup def get_comments(url): res = requests.get(url) soup = BeautifulSoup(res.text,'html.parser') comments = [] for content in soup.find_all("div",class_="comment-item"): comment = content.p.text.strip() comments.append(comment) return comments if __name__ == "__main__": url = "https://movie.douban.com/subject/1292052/comments?start={}&limit=20&sort=new_score&status=P" for i in range(0, 100, 20): comments = get_comments(url.format(i)) print("第{}頁(yè):".format(i/20 + 1)) for comment in comments: print(comment)
上述代碼通過(guò)requests庫(kù)和BeautifulSoup庫(kù)分別獲取網(wǎng)頁(yè)源代碼以及解析出需要的數(shù)據(jù)。其中,通過(guò)循環(huán)傳入不同的url參數(shù),可以實(shí)現(xiàn)爬取多頁(yè)的影評(píng)信息。最后,將獲取到的影評(píng)信息依次輸出即可。
通過(guò)Python爬取影評(píng)信息,不僅可以快速獲取大量的數(shù)據(jù),而且還可以方便地進(jìn)行數(shù)據(jù)分析和挖掘,為電影制作、市場(chǎng)營(yíng)銷等方面提供有力的支持。