爬蟲代碼是什么意思?
爬蟲代碼指的是網絡爬蟲,又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
如果我們把互聯網比作一張大的蜘蛛網,數據便是存放于蜘蛛網的各個節點,而爬蟲就是一只小蜘蛛,會沿著網絡抓取自己的獵物(數據)。
從技術層面來說就是,通過程序模擬瀏覽器請求站點的行為,把站點返回的html代碼/json數據/二進制數據(圖片、視頻) 爬到本地,進而提取自己需要的數據,存放起來使用。一般步驟為:
1、發起請求。使用http庫向目標站點發起請求,即發送一個Request。
2、獲取響應內容。如果服務器能正常響應,則會得到一個Response,包含:html,json,圖片,視頻等。
3、解析內容。解析二進制數據:以wb的方式寫入文件。
4、保存數據。
下一篇進化論到底是不是真的