Python是一種非常流行的編程語言,也是人們使用最廣泛的語言之一。其中一大優勢就是可以自動化抓取數據,比如爬取淘寶網商品信息。下面是一個基本的爬蟲代碼實現:
import requests from bs4 import BeautifulSoup url = 'https://list.tmall.com/search_product.htm?q=%E6%B0%B4%E6%9E%9C' html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') items = soup.find_all('div', {'class': 'product-iWrap'}) for item in items: price = item.find('p', {'class': 'productPrice'}).find('em').get_text() name = item.find('p', {'class': 'productTitle'}).find('a').get_text() print(name, price)
在這個示例中,我們首先使用requests模塊獲取淘寶商品列表頁面的HTML代碼,然后使用BeautifulSoup模塊解析這個頁面。
我們首先獲取商品的集合,即class為product-iWrap的div元素。對于每一個商品,我們可以找到它的價格和名稱并將它們輸出到控制臺。
如果我們要將數據存儲在CSV文件中,可以使用csv模塊。
import csv import requests from bs4 import BeautifulSoup url = 'https://list.tmall.com/search_product.htm?q=%E6%B0%B4%E6%9E%9C' html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') items = soup.find_all('div', {'class': 'product-iWrap'}) with open('fruits.csv', 'w', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['Name', 'Price']) for item in items: price = item.find('p', {'class': 'productPrice'}).find('em').get_text() name = item.find('p', {'class': 'productTitle'}).find('a').get_text() writer.writerow([name, price])
我們在這個示例中使用了Python的csv模塊把數據存儲在CSV文件中。
爬蟲有很多的應用場景,包括數據挖掘、機器學習、推薦系統等。Python作為一種靈活的編程語言,在這些應用中都有著重要的地位。