爬取豆瓣閱讀(實(shí)現(xiàn)豆瓣閱讀信息的自動化獲取)
編寫程序,實(shí)現(xiàn)對豆瓣閱讀中圖書信息的自動化獲取。
1. 確定目標(biāo)網(wǎng)站
首先需要確定要爬取的目標(biāo)網(wǎng)站,本文選擇豆瓣閱讀作為目標(biāo)網(wǎng)站。
2. 分析目標(biāo)網(wǎng)站
3. 獲取網(wǎng)頁源代碼
中的requests庫發(fā)送HTTP請求,獲取豆瓣閱讀的網(wǎng)頁源代碼。代碼如下
port requests
d/100'se = requests.get(url)lse.text
4. 解析網(wǎng)頁源代碼
中的BeautifulSoup庫解析網(wǎng)頁源代碼,獲取目標(biāo)信息。代碼如下
port BeautifulSoup
ll.parser')de')
book_listd('div', class_='title').text.strip()d('div', class_='author').text.strip()d('div', class_='publisher').text.strip()d('div', class_='pub-date').text.strip()d', class_='price-tag').text.strip()t(title, author, publisher, pub_date, price)
5. 結(jié)果展示
運(yùn)行程序后,即可自動獲取豆瓣閱讀中的圖書信息,并將其輸出。如下圖所示
ageetg)
中的requests庫和BeautifulSoup庫的使用方法,對于初學(xué)者來說十分實(shí)用。