零基礎(chǔ)成為一個爬蟲難度大嗎?
爬蟲是伴隨互聯(lián)網(wǎng)的興起而來的,以前很早的互聯(lián)網(wǎng),比如曾經(jīng)的雅虎,你能想象給別人看的網(wǎng)頁都是人工后臺一個個給弄上去的嗎。就跟今天的一些內(nèi)容網(wǎng)站,比如悟空問答一樣,用戶給一個個補錄上去,讓大家看的。
但是搜索引擎不行,互聯(lián)網(wǎng)的內(nèi)容簡直太多了,軟件是摩爾定律級別,網(wǎng)頁就更不說了。如果靠人工,根本不可能搞定這么多東西。就產(chǎn)生了很多算法,比如深度優(yōu)先,廣度優(yōu)先等,盡量的去抓取別人的網(wǎng)頁和內(nèi)容。這其中也有很多的規(guī)則,并不是什么內(nèi)容都允許抓取的。比如百度的爬蟲,一般叫百度蜘蛛spider。爬取規(guī)則,你偶爾會看到自己項目中也會有類似robots.txt這樣文件,就是爬蟲規(guī)則。你可以寫明不允許爬取,正常的蜘蛛是不應(yīng)該再來抓取你的內(nèi)容的。
一般我們能看到的,被爬取的內(nèi)容都是明網(wǎng),還有子網(wǎng),暗網(wǎng),你可以自己搜索了解一下。據(jù)說暗網(wǎng)的內(nèi)容更多,更讓人驚心動魄,被我們定義為非法的,“說是為了保護我們”,哎,就算是吧。
學(xué)爬蟲,我們不需要搞到搜索引擎的級別,這個是谷歌,百度這種強搜索傾向的公司去搞的。一般來說,Python的這個框架Scrapy,就可以遞歸爬取內(nèi)容,可以從它開始去學(xué)習(xí)如何爬取。零基礎(chǔ)難度也不算大,但還是需要你花一些精力去研究的。我自己沒去從事過爬取的崗位。現(xiàn)在厲害的人多了,你可以去從簡單的實例開始,比如隨便搜搜,‘我用爬蟲一天時間“偷了”知乎一百萬用戶,只為證明PHP是世界上最好的語言’,爬取網(wǎng)易云音樂,用Python解決租房問題等例子,都非常有趣,這些都是學(xué)習(xí)的好例子。