不能說(shuō)不擅長(zhǎng)把,只能說(shuō)php太專注于web開(kāi)發(fā)而其他方面就顯得單薄了而已。
很多phpcms系統(tǒng)都自帶爬蟲(chóng)功能
比如phpcms的采集模塊,可通過(guò)設(shè)置規(guī)則采集網(wǎng)站數(shù)據(jù),采集內(nèi)容直接錄入數(shù)據(jù)庫(kù),并在網(wǎng)站發(fā)布。
看看上面的功能很強(qiáng)大把,這基本上是國(guó)內(nèi)cms得標(biāo)配,只要稍懂點(diǎn)html就能用,不需要多大的技術(shù)。大量的網(wǎng)站們?cè)谟盟以O(shè)置好一個(gè)規(guī)則后可以很方便的導(dǎo)出倒入,共享給其他人,已經(jīng)下載其他的規(guī)則。非常方便人性化。
雖然都知道python擅長(zhǎng)寫(xiě)爬蟲(chóng),但是更強(qiáng)調(diào)是其他方面,而不是用戶使用方便,更強(qiáng)調(diào)是技術(shù),而不是使用。用戶體驗(yàn)上各個(gè)phpcms自帶的采集模塊更勝一籌。
高級(jí)爬蟲(chóng)功能
其他方面來(lái)說(shuō),比如大并發(fā)采集,代理更換ip,等更多方面是面向終端端的python和perl,golang等語(yǔ)言更方便一點(diǎn),但是自己很多時(shí)候要自己寫(xiě)大量的代碼來(lái)完成,還是比較麻煩。
而且在蟲(chóng)蟲(chóng)看看爬蟲(chóng)也好,數(shù)據(jù)采集也好,最重要的是內(nèi)容,不管用什么樣的方便,能幫我把需要的內(nèi)容方便的采集下來(lái)就ok,管你用什么技術(shù),什么語(yǔ)言。
實(shí)際上據(jù)我所知很多個(gè)人網(wǎng)站是做爬蟲(chóng)采集需求最多的,他們有很多不懂技術(shù),但他們只需花幾十塊錢(qián)找人寫(xiě)個(gè)采集規(guī)則導(dǎo)入cms就行,也不需要什么高級(jí)的爬蟲(chóng)功能。
商業(yè)采集器
還有很多大量使用的傻瓜化收費(fèi)采集器,比如火車頭,八爪魚(yú)采集器,用的是c#,vb等也有大量的用戶。立足點(diǎn)也跟phpcms采集模塊相似,注重方便實(shí)用,而不是強(qiáng)調(diào)技術(shù)。