Python是一門強大的編程語言,它的強大表現在很多地方,其中就包括網絡爬蟲。Python的爬蟲庫非常豐富,比如Requests、BeautifulSoup、Scrapy等等,這些庫可以幫助我們快速抓取互聯網上的數據,用于我們的數據分析或者其他用途。
下面我們來看一個Python爬取案例。
import requests from bs4 import BeautifulSoup URL = 'http://www.qiushibaike.com/hot/page/' def scrape_page(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') return soup.find_all('div', {'class': 'content'}) def scrape_people(): for i in range(1, 11): url = URL + str(i) content_list = scrape_page(url) for content in content_list: print(content.span.get_text().strip()) if __name__ == '__main__': scrape_people()
這個爬蟲程序是爬取糗事百科的熱門段子,爬取的方法就是把每一頁的內容爬下來,然后提取出每篇段子的文本內容,最后打印出來。
我們首先定義了一個URL變量,這個變量是糗事百科熱門段子的首頁。然后我們定義了一個函數scrape_page,用于抓取每頁的內容。這個函數用了Requests庫來請求網頁,然后用BeautifulSoup庫來解析網頁內容,最后提取出每篇段子的內容。我們返回的是每篇段子的
標簽。
我們再定義一個函數scrape_people,這個函數用于抓取所有頁面的內容。我們使用一個循環來遍歷所有頁面,然后調用scrape_page函數抓取每頁的內容。我們用一個for循環遍歷每一頁的段子,然后打印出每篇段子的內容。
在本例中,我們同時使用了Requests和BeautifulSoup這兩個庫,其中Requests用于請求網頁,BeautifulSoup則用于解析網頁內容。通過這個例子,我們可以看出Python用起來非常方便,可以幫助我們快速抓取互聯網上的數據。