華為八爪魚平臺優缺點?
1、功能強大。八爪魚采集器是一款通用爬蟲,可應對各種網頁的復雜結構(瀑布流等)和防采集措施(登錄、驗證碼、封IP),實現百分之九十九的網頁數據抓取。
2、操作簡單。模擬人瀏覽網頁的操作,通過輸入文字、點擊元素、選擇操作項等一些簡單操作,即可完成規則配置,無需編寫代碼,對沒有技術背景的用戶極為友好。
3、流程可視化。真正意義上實現了操作流程可視化,用戶可打開“流程”按鈕,直接可見操作流程,并對每一步驟,進行高級選項的設置(ajax/修改xpath等)。
4、云采集。數量龐大的企業云,24x7不間斷運行,可定時采集、關機也可采集,同時支持任務拆分,可提高數據采集速度。
5、7.0版本推出的簡易網頁采集,內置主流網站大量數據源和已經寫好的采集規則。用戶只需輸入關鍵詞,即可采集到大量所需數據。
缺點:
1、自定義采集過程中,八爪魚采集器系統自寫的Xpath、自動生成的流程,可能無法滿足數據采集需求。對數據質量要求高,則需自寫Xpath,調成流程圖等,以優化規則。
2、使用自定義采集的同學,雖然八爪魚操作簡單,比較容易上手。但是,仍需對八爪魚采集原理有所了解,看完相關教程,循序漸進,方能成為采集大神。成長周期較長