隨著互聯網的發展,我們越來越需要從網絡上獲取數據,這就涉及到了爬蟲技術。針對不同網站的頁面結構和數據展示方式,我們需要不同的爬蟲方案。本文將介紹如何使用Python爬蟲美團網,獲取美食店鋪信息。
import requests from bs4 import BeautifulSoup url = 'http://www.meituan.com/changsha/ch10/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') shop_list = soup.find_all('div', class_='poi-info') for shop in shop_list: shop_name = shop.find('h3').text.strip() shop_score = shop.find('span', class_='rating').text shop_address = shop.find('div', class_='poi-address').text.strip() print(shop_name, shop_score, shop_address)
首先,我們通過requests庫發送GET請求,獲取美團網的長沙美食店鋪列表頁面,存儲到response對象中。之后,我們用BeautifulSoup庫來解析網頁源代碼,根據美團網特定的HTML結構,提取店鋪信息。
在這個例子中,我們使用find_all()方法來找到店鋪信息所在的div標簽,然后根據其class屬性值取得店鋪名稱、評分和地址等信息。最后,將所有店鋪信息打印出來。
需要注意的是,在爬取頁面時,我們要設置User-Agent為瀏覽器的頭信息,這是為了避免被服務器攔截而添加的一種手段,例如上述代碼中的headers字典。
總之,使用Python爬蟲美團網是非常簡單的,只需要掌握基本的網絡爬蟲知識,了解網頁結構和HTTP協議,便可愉快地獲取所需的數據。
上一篇python 爬蟲搶票
下一篇vue中的ser