零基礎(chǔ)想做一個(gè)python爬蟲(chóng)?
零基礎(chǔ)學(xué)習(xí)python爬蟲(chóng)的話(huà),可以學(xué)習(xí)一下requests+BeautifulSoup組合,非常簡(jiǎn)單,其中requests用于請(qǐng)求頁(yè)面,BeautifulSoup用于解析頁(yè)面,下面我簡(jiǎn)單介紹一下這個(gè)組合的安裝和使用,實(shí)驗(yàn)環(huán)境win7+python3.6+pycharm5.0,主要內(nèi)容如下:
1.首先,安裝requests和BeautifulSoup,這個(gè)直接在cmd窗口輸入命令“pip install requests bs4”就行,如下,很快就能安裝成功,BeautifulSoup是bs4模塊的一個(gè)類(lèi):
2.安裝完成后,我們就可以直接編寫(xiě)代碼來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的爬取了,這里以糗事百科非常簡(jiǎn)單的靜態(tài)網(wǎng)頁(yè)為例,主要步驟及截圖如下:
這里假設(shè)我們要爬去的數(shù)據(jù)包含3個(gè)字段的內(nèi)容,如下,分別是昵稱(chēng)、年齡和內(nèi)容:
接著打開(kāi)網(wǎng)頁(yè)源碼,如下,就可以直接找到我們需要的數(shù)據(jù),嵌套在對(duì)應(yīng)的標(biāo)簽中,后面就是對(duì)這些數(shù)據(jù)進(jìn)行提取:
然后就是根據(jù)上面的網(wǎng)頁(yè)結(jié)構(gòu),編寫(xiě)對(duì)應(yīng)代碼請(qǐng)求頁(yè)面,對(duì)返回的數(shù)據(jù)進(jìn)行解析,提取出我們需要的數(shù)據(jù)就行,測(cè)試代碼如下,非常簡(jiǎn)單:
點(diǎn)擊運(yùn)行程序,就會(huì)獲取到我們需要的數(shù)據(jù),截圖如下:
3.熟悉基本爬蟲(chóng)后,就可以學(xué)習(xí)一下python爬蟲(chóng)框架scrapy了,在業(yè)界非常流行,功能非常強(qiáng)大,可以快速爬取網(wǎng)站結(jié)構(gòu)化數(shù)據(jù),廣泛應(yīng)用于數(shù)據(jù)挖掘,信息處理之中:
至此,我們就完成了requests+BeautifulSoup組合的簡(jiǎn)單安裝和使用。總的來(lái)說(shuō),整個(gè)過(guò)程非常簡(jiǎn)單,也就是入門(mén)級(jí)的python爬蟲(chóng)教程,只要你有一定的python基礎(chǔ),熟悉一下上面的代碼,多調(diào)試幾遍程序,很快就能掌握的,網(wǎng)上也有相關(guān)教程和資料,介紹的非常豐富詳細(xì),感興趣的話(huà),可以搜一下,希望以上分享的內(nèi)容能對(duì)你有所幫助吧,也歡迎大家留言、評(píng)論。