Python 是一種強大的編程語言,它可以用于各種數據處理和挖掘任務。在本文中,我們將探討如何使用 Python 抓取微博數據。
# 導入必要的庫 import requests import json from bs4 import BeautifulSoup # 設置請求參數 params = { 'containerid': '107603xxxxxx', # 微博賬號的 containerid 'page_type': '03', 'page': 1 } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3', 'Referer': 'https://m.weibo.cn/u/xxxxxx' # 微博賬號的鏈接 } # 發送請求并解析數據 url = 'https://m.weibo.cn/api/container/getIndex?' data = [] for i in range(1, 11): # 獲取前十頁的數據 params['page'] = i response = requests.get(url, params=params, headers=headers) json_data = json.loads(response.text) cards = json_data['data']['cards'] for card in cards: if card.get('mblog', None): data.append(card['mblog']['text']) # 輸出數據 print(data)
以上代碼中,我們使用了 requests 庫發送請求,并使用 BeautifulSoup 庫解析 HTML 數據。我們將請求參數和請求頭存儲在變量 params 和 headers 中,以便更方便地修改。
使用以上代碼,我們可以輕松地獲取目標微博賬號的前十頁微博內容,并將其存儲在名為 data 的列表中。