隨著信息技術的不斷發展,網絡數據已經成為了人們獲取信息的主要來源之一。許多網站提供了豐富的數據,但是這些數據中又有一部分是動態生成的,無法通過靜態頁面直接獲取。那么,我們如何用Python來進行動態數據的爬取呢?
import requests from bs4 import BeautifulSoup url = 'https://www.example.com' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} res = requests.get(url, headers=headers) soup = BeautifulSoup(res.text, 'html.parser') # 獲取動態數據的URL dynamic_url = soup.select('#dynamic-data-url')[0]['href'] # 通過動態URL獲取數據 res2 = requests.get(dynamic_url, headers=headers) dynamic_data = res2.json()
以上就是一個簡單的示例代碼,它可以從一個網站中獲取動態生成的數據。首先,我們需要發送一個請求獲取網站的 HTML 頁面,然后使用 BeautifulSoup 庫對這個頁面進行解析。由于動態數據是通過 AJAX 等方式異步加載的,因此我們需要通過分析網頁的源代碼找到動態數據的 URL。在這個示例中,我們通過 CSS 選擇器獲取了一個具有唯一標識符的元素,并從該元素的屬性中獲取了動態數據的 URL。最后,我們使用 requests 庫發送一個新的請求,將動態數據以 JSON 格式獲取到。
上一篇python 矩陣列之和
下一篇C 怎么寫入json數據