Python 作為一種流行的編程語言,有著強(qiáng)大的數(shù)據(jù)處理和網(wǎng)絡(luò)爬取能力。可以將這些能力應(yīng)用到爬取各種網(wǎng)站的數(shù)據(jù)中,本文將介紹如何使用 Python 爬取題庫的方法。
import requests # 網(wǎng)絡(luò)請(qǐng)求庫 from lxml import etree # html 解析庫 url = 'http://example.com/questions' # 題庫網(wǎng)站的 URL response = requests.get(url) # 發(fā)送 get 請(qǐng)求獲取頁面 # 使用 lxml 庫解析 HTML html = etree.HTML(response.text) questions = html.xpath('//div[@class="question"]') # 根據(jù) HTML 結(jié)構(gòu)獲取題目元素 for question in questions: title = question.xpath('.//h2/text()') # 獲取題目標(biāo)題 options = question.xpath('.//ul/li/label/text()') # 獲取選項(xiàng) answer = question.xpath('.//input[@type="radio"]/@value') # 獲取正確答案 # 打印結(jié)果 print('題目:', title) print('選項(xiàng):', options) print('答案:', answer)
上述代碼中,我們首先使用 requests 庫發(fā)送了一個(gè) GET 請(qǐng)求,獲取到了題庫網(wǎng)站的 HTML 頁面。然后,我們使用 lxml 庫對(duì) HTML 進(jìn)行解析,根據(jù) HTML 結(jié)構(gòu)獲取題目元素,并從中提取出題目標(biāo)題、選項(xiàng)和正確答案等信息。
針對(duì)不同的題庫網(wǎng)站,可能需要針對(duì)其 HTML 結(jié)構(gòu)進(jìn)行一些調(diào)整。但是,如此簡(jiǎn)單的爬蟲代碼可以輕松地應(yīng)對(duì)大多數(shù)常見的題庫網(wǎng)站,實(shí)現(xiàn)題目批量爬取的功能。
上一篇python 目錄多少層
下一篇python 爬審查元素