Python 爬蟲技術正變得越來越受歡迎。微博作為中國最大的社交媒體平臺,其中包含海量的用戶信息、微博內容和話題活動,因此, Python 爬蟲也被廣泛應用于微博數據的抓取和分析。
import requests from lxml import etree import time url = 'https://weibo.cn/u/1234567890' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2661.94 Safari/537.36', 'Cookie': 'your_cookie' } res = requests.get(url, headers=header) page = etree.HTML(res.content) for i in range(1, 10): info_xpath = f'//*[@id="M_Profile_Pic"]/tbody/tr/td[{i}]/text()' info = page.xpath(info_xpath) print(info) time.sleep(1)
上面的代碼是一個簡單的示例,演示了使用 Python 爬蟲從微博用戶頁面抓取數據的過程。其中,需要注意的幾個點:
- 需要用到 requests 和 lxml 庫,使用 pip 命令可安裝。
- 要抓取微博數據,需要登錄用戶的賬號才能獲得 cookie,將 cookie 替換為自己的。
- 為了避免對網站的過度訪問,代碼實現了 1 秒的延遲。
總之, Python 爬蟲技術提供了一種強大的手段,能夠大規模地收集和分析微博數據,為社會熱點、用戶行為等相關研究提供了支持。