步驟/方式1
正則表達式(re庫)
正則表達式通常用于在文本中查找匹配的字符串。Python里數量詞默認是貪婪的(在少數語言里也可能是默認非貪婪),總是嘗試匹配盡可能多的字符;非貪婪的則相反,總是嘗試匹配盡可能少的字符。
步驟/方式2
BeautifulSoup(bs4)
beautifulSoup是用python語言編寫的一個HTML/XML的解析器,它可以很好地處理不規范標記并將其生成剖析樹(parsetree)。它提供簡單而又常見的導航(navigating),搜索及修改剖析樹,此可以大大節省編程時間。
步驟/方式3
lxml
lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的數據;lxml和正則一樣,也是用C語言實現的,是一款高性能的pythonHTML、XML解析器,也可以利用XPath語法,來定位特定的元素及節點信息。