色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

如何簡單有效的學習Python爬蟲

榮姿康2年前16瀏覽0評論

如何簡單有效的學習Python爬蟲?

應該先有一個爬蟲思路:

獲得我們需要爬取的網頁源碼;

在源碼里找到你需要的信息,提取出來;

現在我們說一個最簡單的方法,也就是入門。首先是python和urllib。這里我們舉例的版本是python2.7x也就是2.7之后的版本,我們沒有用python3。首先我們需要一個組件:urllib2,這是python獲取URL的一個組件。

首先我們創建一個

urllib2_test01.py

然后呼入下面代碼:

執行的話寫的python的代碼如下:

會看到的結果如下:

最開始的四行代碼做的是爬取百度首頁的工作。第一行是將之前提到的組件引入來讓我使用,第二行是調用urllib2庫中的urlopen的方法,這個方法就是接受一個url,之后將請求后得到的回應封裝到response的對象里面。最后異步是調用response對象的read()方法,將請求的回應內容以字符串的形式給html變量;

這只是舉了個很簡單的例子,還有其他的方法,但是直接用python給urllib2給一個網站發送請求的話,是有些唐突的。就好像是,我們每個家都有門,你是一個路人直接闖進來就顯得不是很禮貌,有的網站也會拒絕你的請求。但是如果我們換一個身份的話,就是這樣:

所以我們就應該給我們這個代碼加上一個身份,這個身份就是User-Agent頭;如果我們不是專業學習前端專業的,這個東西對于C或者是后端開發的人是很頭疼的。

這里有很重要的一句話,就是我們用不同的瀏覽器發送請求的時候,會有不用的User-Agent頭。瀏覽器就是世界上被允許的身份。真正爬蟲的重點和難點也都在反爬等等階段。

我們可以編輯

urllib2_test03.py

,上面這一大段代碼就是一個基本的操作,那么如果我們想實現一個簡單的爬蟲,上面也就足夠了。如果你還想更加深入的了解urllib2的其他操作,可以關注我哦。還有更多的爬蟲教程。