爬蟲選擇什么工具呢?
1.爬蟲是網絡蜘蛛機器人,自動爬取數據,按我們制定的規則獲取數據
2.為什么要用爬蟲呢,私人定制搜索引擎,獲得更多的數據,不再是互聯網時代而是大數據時代
3.爬蟲的原理:控制節點(url分配器)、爬蟲節點(按照算法爬取數據存儲到數據庫)、資源庫(存儲爬取的數據庫供應搜索)
4.爬蟲的設計思路:爬取的網絡地址、http協議獲取對應的html頁面
5.爬蟲語言選擇:
PHP:雖然冠名“世界上最好的語言”,但是作為爬蟲的缺點:沒有多線程的概念,對異步的支持不多,并發不足,爬蟲要求效率高
C/c++:運行效率和性能最高的語言,但是學習成本非常高,代碼成型較大
Java:生態圈非常廣大,python最大的競爭者,本身非常笨重體量積,爬蟲需要經常修改代碼
Python:語言優美、代碼簡介、第三方功能模塊多scrapy、調用替他語言接口、成熟較高的分布式策略