Python中的Beautiful Soup(bs)庫(kù)是一個(gè)非常有用的工具,用于從HTML或XML文件中提取數(shù)據(jù)。
#導(dǎo)入BeautifulSoup庫(kù) from bs4 import BeautifulSoup #讀取HTML文件 with open('example.html') as f: soup = BeautifulSoup(f, 'html.parser') #查找標(biāo)簽 title = soup.title print(title) #查找所有的段落 paragraphs = soup.find_all('p') for p in paragraphs: print(p.text)
Beautiful Soup可以通過(guò)許多不同的方式來(lái)解析HTML和XML文檔。這些方法包括標(biāo)簽查找、標(biāo)簽內(nèi)容查找、屬性值查找和CSS選擇器查找。
例如,如果您想查找HTML文檔中所有class為“article”的div元素,可以使用以下代碼:
articles = soup.find_all('div', class_='article') for article in articles: print(article.text)
Beautiful Soup也可以用于修改HTML文檔。例如,如果您想在HTML文檔中添加一個(gè)新的段落,可以使用以下代碼:
new_paragraph = soup.new_tag('p') new_paragraph.string = 'This is a new paragraph.' soup.body.append(new_paragraph)
總之,Beautiful Soup是一個(gè)非常強(qiáng)大的工具,用于解析和修改HTML和XML文檔。它為Python開發(fā)人員提供了一個(gè)簡(jiǎn)單而直觀的方式來(lái)處理HTML和XML文件中的數(shù)據(jù)。