這個非常簡單,智聯招聘的數據都是動態加載的,存在一個json文件中,只要我們抓包提取到這個json文件的url地址,然后直接請求解析這個json文件,就能爬取到我們需要的數據,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
1.為了更好的說明問題,這里以爬取智聯招聘上的“Python”招聘為例,如下:
2.首先,按F12調出開發者工具,依次點擊“Network”->“XHR”,按F5刷新頁面,就可以看到網頁動態加載的json文件信息,也就是我們需要爬取的招聘信息,如下:
3.接著,針對以上json文件格式,我們就可以編寫對應代碼進行請求和解析json文件了,測試代碼如下,主要用到requests模塊和json模塊,其中requests模塊用于獲取json文件,json模塊用于解析json文件,提取我們需要的數據:
點擊運行這個程序,效果如下,已經成功爬取到我們需要的數據:
4.最后就是將數據存儲到Excel文件中,這個也非常簡單,主要用到xlwt這個模塊,專門用于寫入數據到excel文件中,直接寫入到對應單元格進行,測試代碼如下:
點擊運行這個程序,就會在當前目下生產一個excel文件,內容如下,就是我們需要爬取的招聘信息:
至此,我們就完成了利用python來爬取智聯招聘數據并存儲為Excel文件。總的來說,這個過程不難,就是抓包分析,獲取到json文件,然后解析json文件,提取數據,只要你有一定的python爬蟲基礎,熟悉一下上面的代碼,很快就能掌握的,網上也有相關教程和資料可供參考,很豐富,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。