Python是一種高效而流行的編程語言,在網絡爬蟲方面也有很好的表現。下面我們將介紹如何使用Python爬取手機號。
import requests import re #模擬瀏覽器發送請求 headers ={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko)' 'Chrome/58.0.3029.110 Safari/537.36'} #匹配手機號正則表達式 regex = r"(13\d|14[579]|15[^4\D]|17[^49\D]|18\d)\d{8}" url = 'http://www.xxx.com' #獲取HTML文檔 response = requests.get(url,headers=headers) #使用正則表達式匹配手機號 mobiles = re.findall(regex,response.text) #打印手機號 for mobile in mobiles: print(mobile)
上述代碼使用requests庫模擬瀏覽器發送請求,并使用re庫中的正則表達式匹配手機號。可以通過修改headers中的'user-agent'信息偽裝成不同的瀏覽器,避免被反爬蟲機制識別。此外可以在爬取到的手機號存儲到數據庫或文件中,實現對數據的持久化。
上一篇c 怎用使用json
下一篇c 怎樣解多層json