色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

如何用python爬取網(wǎng)頁(yè)的內(nèi)容

如何用python爬取網(wǎng)頁(yè)的內(nèi)容?

用python爬取網(wǎng)頁(yè)信息的話(huà),需要學(xué)習(xí)幾個(gè)模塊,urllib,urllib2,urllib3,requests,httplib等等模塊,還要學(xué)習(xí)re模塊(也就是正則表達(dá)式)。根據(jù)不同的場(chǎng)景使用不同的模塊來(lái)高效快速的解決問(wèn)題。

最開(kāi)始我建議你還是從最簡(jiǎn)單的urllib模塊學(xué)起,比如爬新浪首頁(yè)(聲明:本代碼只做學(xué)術(shù)研究,絕無(wú)攻擊用意):

這樣就把新浪首頁(yè)的源代碼爬取到了,這是整個(gè)網(wǎng)頁(yè)信息,如果你要提取你覺(jué)得有用的信息得學(xué)會(huì)使用字符串方法或者正則表達(dá)式了。

平時(shí)多看看網(wǎng)上的文章和教程,很快就能學(xué)會(huì)的。

補(bǔ)充一點(diǎn):以上使用的環(huán)境是python2,在python3中,已經(jīng)把urllib,urllib2,urllib3整合為一個(gè)包,而不再有這幾個(gè)單詞為名字的模塊。