在不違反被爬網站robots協議的情況下?
感謝悟空小秘書的邀請
類似百度、360搜等搜索引擎企業,它們會有全網爬蟲的,24小時不間斷對全網進行爬取。如果這樣的網絡爬蟲不合法的話,那么這些企業都要關門了。
這些搜索引擎爬蟲在爬取網站之前,都會看下該站點下是否有 robots.txt。然后按照 rbots.txt 里面定義的規則對該網站進行爬取。
所以制作爬蟲程序,強烈建議遵循 robots 規則。另外,爬取網站的數據不得用于商業用途。例如將爬取到的網站數據售賣給網站的競爭對手等。
遵循這兩點,就不算違法了。
-----------------------------------------------
喜歡的、覺得有用的麻煩點個贊,萬分感謝~
個人微信公眾號:極客猴(ID:Geek_monkey)
自己堅持分享 Python 原創干貨,包括基礎入門,進階技巧,網絡爬蟲,數據分析,Web 應用開發等。歡迎關注~
上一篇m60指令是什么
下一篇esp32是什么架構