Python 是一款常用的編程語言,人們可以利用它進行網頁爬取操作。本文將介紹如何使用 Python 爬取全部頁的文章,并將代碼使用 pre 標簽呈現。
首先,我們需要導入一些必要的庫,如 requests 網絡請求庫、BeautifulSoup 解析庫等:
```
import requests
from bs4 import BeautifulSoup
```
接著,我們可以通過請求網頁的方式獲取文章內容:
```
url = "http://www.example.com/article.html"
response = requests.get(url)
```
接下來,我們可以使用 BeautifulSoup 將獲取到的 HTML 文本解析成結構化的數據。
```
soup = BeautifulSoup(response.content, "html.parser")
```
在解析過程中,可以使用一些 CSS 選擇器或 XPath 等語法,提取出所需的文章內容。比如,有些文章分頁顯示,需要連續爬取多頁內容,可使用下面的代碼:
```
for page in range(1, total_page + 1):
url = f"http://www.example.com/article_{page}.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
article = soup.select_one("div.article-body")
content_list = article.select("p")
# 將文章內容寫入文件或數據庫等
```
上述代碼中,total_page 可以是前面預先從頁面中提取到的總頁數。要爬取每一頁的文章內容,可將網址逐一替換,然后提取并寫入文件或數據庫等。
最后,我們來看一下完整的代碼,使用 pre 標簽呈現:
```
import requests
from bs4 import BeautifulSoup
url = "http://www.example.com/article.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# 獲取總頁數等信息
total_page = 10
# 遍歷所有頁,獲取文章內容
for page in range(1, total_page + 1):
url = f"http://www.example.com/article_{page}.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
article = soup.select_one("div.article-body")
content_list = article.select("p")
# 輸出段落內容
print(f"第 {page} 頁文章內容:")
print("
") for content in content_list: print(f"") ``` 上述代碼中,我們使用了 pre 標簽將代碼段呈現在屏幕上,使得代碼更美觀易讀。用戶可結合自己的實際需要,將文章內容輸出到文件、數據庫等存儲介質中,以便后續的數據分析、機器學習等批量處理操作。{content.text}
") print("