Python是一種全能的編程語言,不僅在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用,還可以用于網(wǎng)絡(luò)爬蟲。在這篇文章中,我們將學(xué)習(xí)如何使用Python編寫一個簡單的程序來爬取圖書數(shù)據(jù)。
import requests from bs4 import BeautifulSoup url = "https://www.amazon.com/s?k=python+book&ref=nb_sb_noss_1" response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') books = soup.find_all('div', {'class': 's-result-item'}) for book in books: title = book.find('h2', {'class': 'a-size-mini'}).text.strip() author = book.find('span', {'class': 'a-size-base'}).text.strip() price = book.find('span', {'class': 'a-price-whole'}).text.strip() print(title, author, price)
以上代碼使用Requests庫和BeautifulSoup庫,分別負(fù)責(zé)獲取HTML并解析HTML。首先,我們定義一個URL作為Amazon圖書查詢的搜索詞。接下來,使用Requests庫下載HTML頁面,并用BeautifulSoup庫解析HTML內(nèi)容。此代碼使用CSS選擇器來發(fā)現(xiàn)具有“s-result-item”CSS類的結(jié)果項(xiàng)目,并以循環(huán)方式處理每個書籍。在循環(huán)中,我們使用find()方法檢索書名、作者和價格,并將它們打印到控制臺上。
在執(zhí)行代碼后,您將看到控制臺輸出每本Python圖書的標(biāo)題,作者和價格。這是一種簡單而有用的爬蟲技術(shù),可用于從互聯(lián)網(wǎng)上獲取不同類型的數(shù)據(jù)。