在當前互聯網時代,數據是極為重要的一種資源。而數據爬蟲也是許多從事數據挖掘和分析的人必備的技能之一。本文將介紹使用 Python 爬取天貓數據的方法。
#導入相應的庫 import requests from bs4 import BeautifulSoup #設置各參數 url = 'https://list.tmall.com/search_product.htm?q=手機' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} params = {'sort': 'd'} #獲取頁面內容 html = requests.get(url, headers=headers, params=params).content soup = BeautifulSoup(html, 'html.parser') #提取所需內容 products = soup.select('div.product-item') for p in products: title = p.select_one('p.product-title>a').text.strip() price = p.select_one('p.product-price>em').text.strip() print(title, price)
首先,我們需要導入需要的庫。包括requests
和BeautifulSoup
。然后,我們需要設置所爬取頁面的參數,其中包括url
(爬取頁面的網址)、headers
(請求頭信息)、params
(請求參數,用于篩選所需內容等)。接下來,我們輸入代碼獲取所需頁面的內容。使用BeautifulSoup
對頁面進行解析,然后使用 CSS 選擇器語法對所需內容進行提取。
如上代碼可以實現爬取天貓頁面中“手機”關鍵字搜索結果的商品名稱和價格。運行代碼后即可看到爬取到的商品名稱和價格以及其它相關信息。
值得注意的是,爬蟲的使用需要遵守相關法律法規和原則,不得用于商業用途或危害網站的行為。
上一篇python 爬取字典
下一篇python 爬取小說站