Python是一個(gè)廣泛應(yīng)用于網(wǎng)絡(luò)爬蟲的語言,能夠快速地獲取網(wǎng)絡(luò)數(shù)據(jù)。這篇文章將介紹如何使用Python爬取通訊錄,并將其轉(zhuǎn)換為CSV文件。
import requests from bs4 import BeautifulSoup import csv url = 'https://www.example.com/contacts' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') table = soup.find('table', {'class': 'contact-table'}) rows = table.find_all('tr') data = [] for row in rows: cols = row.find_all('td') cols = [col.text.strip() for col in cols] data.append(cols) with open('contacts.csv', 'w', newline='') as csv_file: writer = csv.writer(csv_file) writer.writerows(data)
首先,我們需要使用request庫和BeautifulSoup庫來獲取和解析網(wǎng)頁。這里我們假設(shè)通訊錄頁面為'https://www.example.com/contacts'。頁面中的通訊錄表格使用了HTML table標(biāo)簽進(jìn)行構(gòu)建,我們需要使用soup.find方法來找到這個(gè)表格。接著,我們通過查詢表格的所有行和每行的所有列,將數(shù)據(jù)收集到一個(gè)名為data的二維列表中。最后,我們使用csv庫來將數(shù)據(jù)寫入CSV文件。
現(xiàn)在,我們已經(jīng)成功地從通訊錄網(wǎng)頁抓取并處理數(shù)據(jù)。將數(shù)據(jù)存儲(chǔ)為CSV文件不僅使其易于訪問,而且還可以讓我們輕松地將數(shù)據(jù)導(dǎo)入到其他程序中。