Python是一種廣泛使用的編程語言,因其簡單易學、多用途并具有良好的文檔庫而備受歡迎。Python常常用于網絡數據采集,即爬取數據。那么,如何使用Python爬取網站上的地址呢?
import requests from bs4 import BeautifulSoup # 獲取頁面鏈接 url = 'https://www.example.com/' res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # 找到所有地址 addresses = [] for link in soup.find_all('a'): addresses.append(link.get('href')) # 去除重復地址并輸出 unique_addresses = list(set(addresses)) for address in unique_addresses: print(address)
上述代碼使用了requests
庫和bs4
庫,前者用于獲取頁面鏈接,后者用于解析HTML。我們使用find_all()
方法找出HTML中所有的a
標簽并獲取其href
屬性,即地址。為去除重復地址,使用Python中列表去重的方法(將列表轉為集合,再轉回列表)而得到不同的地址集。最終使用循環(huán)展現所有不同地址。
使用Python爬取地址并不難,這是Python強大的網絡數據采集功能的一部分。Python的應用場景非常多,如數據分析、計算機視覺、機器學習、自然語言處理、網絡爬蟲等等。我們可以嘗試使用Python去實現自己的想法。