如何簡單有效的學習Python爬蟲

如何簡單有效的學習Python爬蟲？

應該先有一個爬蟲思路：

獲得我們需要爬取的網頁源碼；

在源碼里找到你需要的信息，提取出來；

現在我們說一個最簡單的方法，也就是入門。首先是python和urllib。這里我們舉例的版本是python2.7x也就是2.7之后的版本，我們沒有用python3。首先我們需要一個組件：urllib2，這是python獲取URL的一個組件。

首先我們創建一個

urllib2_test01.py

然后呼入下面代碼：

執行的話寫的python的代碼如下：

會看到的結果如下：

最開始的四行代碼做的是爬取百度首頁的工作。第一行是將之前提到的組件引入來讓我使用，第二行是調用urllib2庫中的urlopen的方法，這個方法就是接受一個url，之后將請求后得到的回應封裝到response的對象里面。最后異步是調用response對象的read（）方法，將請求的回應內容以字符串的形式給html變量；

這只是舉了個很簡單的例子，還有其他的方法，但是直接用python給urllib2給一個網站發送請求的話，是有些唐突的。就好像是，我們每個家都有門，你是一個路人直接闖進來就顯得不是很禮貌，有的網站也會拒絕你的請求。但是如果我們換一個身份的話，就是這樣：

所以我們就應該給我們這個代碼加上一個身份，這個身份就是User-Agent頭；如果我們不是專業學習前端專業的，這個東西對于C或者是后端開發的人是很頭疼的。

這里有很重要的一句話，就是我們用不同的瀏覽器發送請求的時候，會有不用的User-Agent頭。瀏覽器就是世界上被允許的身份。真正爬蟲的重點和難點也都在反爬等等階段。

我們可以編輯

urllib2_test03.py

，上面這一大段代碼就是一個基本的操作，那么如果我們想實現一個簡單的爬蟲，上面也就足夠了。如果你還想更加深入的了解urllib2的其他操作，可以關注我哦。還有更多的爬蟲教程。

上一篇tr定義

下一篇武則天有過幾個版本的

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網站導航

網站導航

網站分類

如何簡單有效的學習Python爬蟲

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網站導航

網站導航

網站分類

如何簡單有效的學習Python爬蟲

相關文章