mysql 嵌套循環查詢,想學python網絡爬蟲?
學習Python爬蟲首先要具備一些必備知識,
Python
html
正則表達式
Python是我們用于爬蟲的工具,結合requests、BeautifulSoup等第三方工具包可以實現程序的開發。而html是我們要爬的目標,需要了解其中標簽的含義。另外,在爬蟲過程中需要很多字段和標簽的匹配,這會經常用到正則表達式。
當然,一個成熟的爬蟲需要的技能遠不止這些技能。下面我就以最簡單的思路,逐步介紹一下如何開始爬蟲,保證一文看完就能明白。
前言就如同標題指明的那樣,本文主要針對入門,如果尋求進階,或者在爬蟲方面走的更遠,本文提供的幫助是微乎其微的,本文的主要目的就是用簡單的方式、簡單的語言幫助對網頁爬蟲感興趣的同學。目前網上有關網頁爬蟲的指導有很多,但是套路卻是千篇一律,基本都是圍繞以下內容進行展開,CSS/html等網頁知識requests或urllibBeautifulSoup或正則表達式Selenium或者Scrapy對于我來說,學習爬蟲知識一項獲取數據的工具,而不是工作的主要內容,因此,沒有太多的時間花費在上述知識成體系的學習上面。上述提到的每塊都涉及大量的知識,一段時間的學習之后容易讓人陷入"云里霧里",然后就喪失了學習的興趣,沒有全局觀、沒有重點,最終使得學習效率非常低下。本文不詳細的講解什么是CSS/html,怎么用requests或者urllib,本文主要目的是介紹怎么去爬取一個網站、爬取我們需要的資源,可能會用到上述一個或幾個模塊里的知識,對我們用到的功能了解即可,沒有必要從頭至尾的學習一遍,希望能夠用這種方法讓對爬蟲感興趣的同學對這項技術有一個統籌的認識,能夠滿足日常獲取數據的需求,如果想要在這項技術上深入研究,可以后續學習其他成體系的課程,對上述模塊認真、詳細的學習。準備工作很多網頁爬蟲的教程中使用或者提及到很多工具,本文選擇以下幾項工具,網頁瀏覽器(Google Chrome)BeautifulSoup4requests網頁瀏覽器主要用于查看網頁html源碼和檢查網頁單元使用,瀏覽器有很多,谷歌、火狐、IE等,每個人的喜好不同,可以根據自己的日常習慣進行選擇,本文以Google Chrome為例進行講解。BeautifulSoup4是一個HTML、XML的解析器,它能夠輕而易舉的解析web網頁,從中獲取我們想要的單元和信息,能夠避免篩選信息時的麻煩,它能夠提供用于迭代、搜索、修改解析樹的用法。在網頁匹配過程中BeautifulSoup的速度并不比正則表達式快,甚至還要慢一些,但是它最大的優勢就是簡單、便捷,因此是很多網頁爬蟲工程中的必選工具之一。安裝$ pip install beautifulsoup4requests是Python大神Kenneth Reitz的力作,是一個用于網絡請求的第三方庫,Python已經內容了urllib模塊用于訪問網絡資源,但是使用起來相對麻煩,而requests相比之下要方便快捷很多,因此本文選擇用requests進行網絡請求。安裝$ pip install requests動手實踐很多教程選擇爬取糗事百科、網頁圖片,本文就選取另外一個方向,爬取我們常用的百度百科,這樣更加直觀、易于理解。經常瀏覽網頁,注意細節或者善于總結的會發現,網址主要有兩部分組成,基礎部分,和對應詞條的后綴,例如上述百科詞條,由基礎部分https://baike.baidu.com組成,后綴是item/林志玲/172898?fr=aladdin,因此我們要爬取一個網站首先要獲取一個網址。第一步,要確定一個目標,你要爬取什么數據?很多人會認為,這不是廢話嗎?我個人認為這是很重要的,有目的才會效率更好,在沒有某種目標驅動的情況下,就很難帶著問題和壓力去做一件事情,這樣會變得漫無目的,導致效率很低,因此,我認為最重要的是首先要清楚想爬取什么數據?網頁上的音樂圖片素材...本文就以爬取百度百科詞條內部鏈接和下載圖片為目標進行講解。第二步,我們要獲取一個基礎的網址,百度百科的基礎網址,https://baike.baidu.com/第三步,打開首頁,以林志玲的百度詞條為首頁開始爬取。第四步,查看源碼,很多人都知道查看源碼的快捷鍵是F12,不管是谷歌瀏覽器還是IE瀏覽器,都是這樣,但是當按下F12之后會不由得疑問,"這是什么東西?",令人毫無頭緒。當然,可以一步一步的去了解源碼,學習html的知識,然后用正則表達式去一步一步、一個單元一個單元的匹配我們想要的信息,但是這樣未免太復雜了,我個人推薦使用檢查工具。爬取內部鏈接指向我們想要了解的元素,素,鼠標右鍵->檢查,能夠快速定位我們關注的元素。我覺得到這一步就已經夠了,最簡單的網頁爬蟲就是反復的重復以下兩個步驟:檢查定位我們想要的元素和屬性BeautifulSoup4匹配我們要的信息通過檢查功能可以看到,百科詞條內部鏈接部分的源碼是這樣的,元素1:<a target="_blank" href="/item/%E5%87%AF%E6%B8%A5%E6%A8%A1%E7%89%B9%E7%BB%8F%E7%BA%AA%E5%85%AC%E5%8F%B8/5666862" data-lemmaid="5666862">凱渥模特經紀公司</a>元素2:<a target="_blank" href="/item/%E5%86%B3%E6%88%98%E5%88%B9%E9%A9%AC%E9%95%87/1542991" data-lemmaid="1542991">決戰剎馬鎮</a>元素3:<a target="_blank" href="/item/%E6%9C%88%E4%B9%8B%E6%81%8B%E4%BA%BA/10485259" data-lemmaid="10485259">月之戀人</a>元素4:<a target="_blank" href="/item/AKIRA/23276012" data-lemmaid="23276012">AKIRA</a>從上述4個元素可以看出,我們想要的信息詞條內部鏈接在標簽<a></a>中,標簽中有以下幾個屬性:target:這個屬性貴姓在何處打開鏈接文檔,_blank標明瀏覽器總在一個新標簽頁載入目標文檔,也就是鏈接href指向的文檔。href:前面已經提過很多次,屬性href用于指定超鏈接目標的鏈接,如果用戶選中了標簽<a></a>中的內容,則會嘗試打開并顯示href指定鏈接的文檔。data-*:這是html的新特性可以存儲用戶自定義的屬性。可以看出,我們想要的信息就在href中,也就是詞條的內部鏈接。因此,我們爬蟲的目標就很明確了,就是解析出href超鏈接。到這里,瀏覽器檢查功能已經發揮了它的作用,下一步問題就變成了我們怎么解析出標簽中href的鏈接?這時,BeautifulSoup4就派上用場了。用BeautifulSoup4解析我們從網頁上抓取的html,soup = BeautifulSoup(response.text, 'html.parser')看到這里也許會疑惑,html.parser是什么?這是一種html的解析器,Python中提供幾種html解析器,它們的主要特點分別是,綜合來說,我們選取html.parser解析器,選取好解析器之后就開始著手匹配我們想要的元素,可是看一下html發現,網頁中有很多<a></a>標簽,我們該匹配哪一類呢?<a target="_blank" href="/item/AKIRA/23276012" data-lemmaid="23276012">AKIRA</a>仔細看一下會發現特點,target="_blank",屬性href以/item開頭的,于是就有了我們的匹配條件,{"target": "_blank", "href": re.compile("/item/(%.{2})+$")}用這樣的匹配條件去匹配符合target、href要求的標簽<a></a>,sub_urls = soup.find_all("a", {"target": "_blank", "href": re.compile("/item/(%.{2})+$")})完整代碼為,def main(): url = BASE_URL + START_PAGE response = sessions.post(url) response.encoding = response.apparent_encoding soup = BeautifulSoup(response.text, 'html.parser') sub_urls = soup.find_all("a", {"target": "_blank", "href": re.compile("/item/(%.{2})+$")}) for sub_url in sub_urls: print(sub_url)輸出結果為,<a href="/item/%E5%B9%B8%E7%A6%8F%E9%A2%9D%E5%BA%A6" target="_blank">幸福額度</a><a href="/item/%E5%8C%97%E4%BA%AC%C2%B7%E7%BA%BD%E7%BA%A6" target="_blank">北京·紐約</a><a href="/item/%E5%A4%9A%E4%BC%A6%E5%A4%9A%E5%A4%A7%E5%AD%A6" target="_blank">多倫多大學</a><a href="/item/%E5%88%BA%E9%99%B5" target="_blank">刺陵</a><a href="/item/%E5%86%B3%E6%88%98%E5%88%B9%E9%A9%AC%E9%95%87" target="_blank">決戰剎馬鎮</a><a href="/item/%E5%8C%97%E4%BA%AC%C2%B7%E7%BA%BD%E7%BA%A6" target="_blank">北京·紐約</a><a href="/item/%E5%BC%A0%E5%9B%BD%E8%8D%A3" target="_blank">張國榮</a><a href="/item/%E5%A5%A5%E9%BB%9B%E4%B8%BD%C2%B7%E8%B5%AB%E6%9C%AC" target="_blank">奧黛麗·赫本</a><a href="/item/%E6%9E%97%E5%81%A5%E5%AF%B0" target="_blank">林健寰</a><a href="/item/%E6%96%AF%E7%89%B9%E7%BD%97%E6%81%A9%E4%B8%AD%E5%AD%A6" target="_blank">斯特羅恩中學</a><a href="/item/%E5%A4%9A%E4%BC%A6%E5%A4%9A%E5%A4%A7%E5%AD%A6" target="_blank">多倫多大學</a><a href="/item/%E5%8D%8E%E5%86%88%E8%89%BA%E6%A0%A1" target="_blank">華岡藝校</a><a href="/item/%E5%94%90%E5%AE%89%E9%BA%92" target="_blank">唐安麒</a><a href="/item/%E6%97%A5%E6%9C%AC%E5%86%8D%E5%8F%91%E7%8E%B0" target="_blank">日本再發現</a><a href="/item/%E4%BA%9A%E5%A4%AA%E5%BD%B1%E5%B1%95" target="_blank">亞太影展</a><a href="/item/%E6%A2%81%E6%9C%9D%E4%BC%9F" target="_blank">梁朝偉</a><a href="/item/%E9%87%91%E5%9F%8E%E6%AD%A6" target="_blank">金城武</a>......在用屬性字段sub_url["href"]過濾一下即可,/item/%E5%B9%B8%E7%A6%8F%E9%A2%9D%E5%BA%A6/item/%E5%8C%97%E4%BA%AC%C2%B7%E7%BA%BD%E7%BA%A6/item/%E5%A4%9A%E4%BC%A6%E5%A4%9A%E5%A4%A7%E5%AD%A6/item/%E5%88%BA%E9%99%B5/item/%E5%86%B3%E6%88%98%E5%88%B9%E9%A9%AC%E9%95%87/item/%E5%8C%97%E4%BA%AC%C2%B7%E7%BA%BD%E7%BA%A6/item/%E5%BC%A0%E5%9B%BD%E8%8D%A3......就得到了詞條內部鏈接的后綴部分,然后和基礎的url拼接在一起就是完整的內部鏈接地址。同理,用同樣的方法也可以爬取其他內容,比如糗事百科的笑話、專業網站的素材、百度百科的詞條,當然,有些文本信息比較雜亂,這個過程中需要一些信息的篩選過程,例如利用正則表達式來匹配一段文本中有價值的信息,方法與上述大同小異。下載圖片和爬取內部鏈接一樣,要善于利用瀏覽器的檢查功能,檢查一下詞條內部圖片的鏈接,<img class="picture" alt="活動照" src="https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D220/sign=85844ee8de0735fa95f049bbae500f9f/dbb44aed2e738bd49d805ec2ab8b87d6267ff9a4.jpg" style="width:198px;height:220px;">發現,圖片鏈接存放在<img></img>標簽內部,用上述方法可以匹配到圖片的完整鏈接,url = BASE_URL + START_PAGE response = sessions.post(url) response.encoding = response.apparent_encoding soup = BeautifulSoup(response.text, "html.parser") image_urls = soup.find_all("img", {"class": "picture"}) for image_url in image_urls: print(image_url["src"])輸出如下,https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D220/sign=36dbb0f7e1f81a4c2232ebcbe7286029/a2cc7cd98d1001e903e9168cb20e7bec55e7975f.jpg https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D220/sign=85844ee8de0735fa95f049bbae500f9f/dbb44aed2e738bd49d805ec2ab8b87d6267ff9a4.jpg ...然后用requests發送請求,獲取圖片的數據,然后以讀寫文件的方式存儲到本地,for image_url in image_urls: url = image_url["src"] response = requests.get(url, headers=headers) with open(url[-10:], 'wb') as f: f.write(response.content)除了requests之外,還可以使用urllib.request.urlretrieve下載圖片,urlretrieve相對要方便一些,但是對于大文件,requests可以分段讀寫,更具有優勢。
上述介紹的方法是比較簡單的一種,如果精力有限也可以嘗試一下Selenium或者Scrapy,這兩款工具的確非常強大,尤其是Selenium,它本是一款自動化測試工具,但是后來發現它同樣可以用于網頁爬蟲,讓瀏覽器幫助你自動爬取數據的工具,它可以以用戶訪問網頁類似的行為去瀏覽網頁并抓取數據,非常高效,感興趣的可以嘗試一下。