Python是一個(gè)多用途編程語(yǔ)言,其中一個(gè)用途就是Web爬取。在這篇文章中,我們將介紹如何使用Python來(lái)爬取圖譜信息。
import requests
from bs4 import BeautifulSoup
url = "http://www.example.com/graph"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
graph_data = []
for node in soup.find_all("node"):
node_data = {}
node_data["id"] = node.get("id")
node_data["label"] = node.get("label")
graph_data.append(node_data)
for edge in soup.find_all("edge"):
edge_data = {}
edge_data["id"] = edge.get("id")
edge_data["source"] = edge.get("source")
edge_data["target"] = edge.get("target")
graph_data.append(edge_data)
print(graph_data)
在上述代碼中,我們首先導(dǎo)入了requests和BeautifulSoup庫(kù),然后定義了一個(gè)URL變量來(lái)存儲(chǔ)我們要爬取的圖譜網(wǎng)站的URL。接下來(lái),我們使用requests庫(kù)向網(wǎng)站發(fā)送Get請(qǐng)求,并使用BeautifulSoup將響應(yīng)內(nèi)容解析為HTML格式。
我們使用BeautifulSoup的find_all方法來(lái)查找HTML中的所有節(jié)點(diǎn)和邊,并將它們存儲(chǔ)在一個(gè)名為graph_data的列表中。我們還創(chuàng)建了一個(gè)空字典來(lái)存儲(chǔ)每個(gè)節(jié)點(diǎn)和邊的信息,并將這些數(shù)據(jù)追加到graph_data列表中。
最后,我們使用Python的print函數(shù)打印graph_data列表以顯示所有節(jié)點(diǎn)和邊的信息。