Python是一種簡單易學,又有著強大數據處理能力的語言。今天,我們將使用Python爬取小說站中的小說內容。
import requests from bs4 import BeautifulSoup def get_novel_content(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') content = soup.select('#content')[0].text.strip() return content if __name__ == '__main__': novel_url = 'https://www.xxxx.com/xxxx' novel_content = get_novel_content(novel_url) print(novel_content)
代碼說明:
我們首先導入了requests和BeautifulSoup庫,它們分別用于發起Http請求和解析Html頁面
在get_novel_content方法中,我們使用requests庫發起一個get請求,將小說頁面的響應內容獲取下來。
接下來,我們使用BeautifulSoup庫對響應內容進行解析,從中提取小說內容。這里我們使用了CSS選擇器,用于選取Html頁面中的特定元素。
在這個例子中,我們選取了一個id為content的元素,并通過其text屬性獲取了小說的內容。
最后,將獲取到的小說內容打印出來。