1. 準備工作庫。我們需要安裝requests、beautifulsoup和urllib庫。可以使用pip來安裝這些庫
stall requestsstall beautifulsoup4stall urllib3
2. 獲取HTML頁面
我們首先需要獲取要爬取的網頁的HTML頁面。使用requests庫可以輕松地獲取HTML頁面。要獲取百度首頁的HTML頁面,可以使用以下代碼
port requests
'se = requests.get(url)lse.text
這將打印出百度首頁的HTML頁面。
3. 解析HTML頁面
使用beautifulsoup庫可以輕松地解析HTML頁面。要解析上一步中獲取的百度首頁的HTML頁面,可以使用以下代碼
port BeautifulSoup
ll.parser')t(soup.prettify())
這將打印出格式化后的HTML頁面。
port re
pileg src="(.?)"')gksdalll)
tgks)
5. 下載圖片
使用urllib庫可以輕松地下載圖片。要下載百度首頁中張圖片,可以使用以下代碼
port urllib.request
gks[0], 'baidu.jpg')
這將下載百度首頁中張圖片,并保存為baidu.jpg文件。
6. 完整代碼
下面是一個完整的圖片爬取器的代碼
port requestsport BeautifulSoupport report urllib.request
'se = requests.get(url)lse.text
ll.parser')pileg src="(.?)"')gksdalll)
kumerategks)kage_{i}.jpg')
ageage_1.jpg等文件。