色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

python 數據爬取

洪振霞2年前8瀏覽0評論

Python是一門非常流行的編程語言,具有廣泛的應用領域,其中包括數據爬取和分析。在Python中,我們可以利用各種庫和工具來實現數據爬取的任務。下面我們將簡單介紹一下Python數據爬取的一些基本方法。

1. 使用urllib庫進行數據爬取

import urllib.request
url = 'http://www.example.com'
response = urllib.request.urlopen(url)
html = response.read()
print(html)

上述代碼利用urllib庫獲取URL所指向的網頁的HTML內容,并將其讀取到變量html中,最后打印該變量。通過以上代碼,我們可以獲取網頁中的文本、圖片、視頻等所有內容。

2. 使用requests庫進行數據爬取

import requests
url = 'http://www.example.com'
html = requests.get(url).text
print(html)

以上代碼利用requests庫獲取URL所指向的網頁的HTML內容,并將其讀取到變量html中。與urllib不同的是,requests庫對返回的結果進行了一些處理和解析,使得程序更加簡潔和易讀。

3. 使用BeautifulSoup庫進行數據解析

from bs4 import BeautifulSoup
html_doc = """The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names wereElsie,LacieandTillie; and they lived at the bottom of a well.

...

""" soup = BeautifulSoup(html_doc, features="html.parser") print(soup.prettify())

以上代碼利用BeautifulSoup庫解析HTML文檔,并將其打印輸出。該庫可以方便地查找和提取HTML標簽、屬性和文本信息等內容,同時還能通過正則表達式進行模糊匹配。

4. 使用XPath進行數據解析

from lxml import etree
html_doc = """The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names wereElsie,LacieandTillie; and they lived at the bottom of a well.

...

""" html = etree.HTML(html_doc) result = html.xpath('//p[@class="title"]/b/text()') print(result)

以上代碼利用lxml庫和XPath語法解析HTML文檔,查找并提取p標簽中class屬性為“title”的文本信息。使用XPath可以極大地簡化數據解析的過程,同時提高解析效率。