python如何爬取B站評論信息?
這里簡單介紹一下吧,B站的評論信息是動態(tài)加載的,存儲在一個(gè)json文件中,只要抓包分析,提取到這個(gè)json文件,就能爬取到我們需要的評論信息,下面我簡單介紹一下實(shí)現(xiàn)過程,實(shí)驗(yàn)環(huán)境win10+python3.6+pycharm5.0,主要內(nèi)容如下:
這里為了更好的說明問題,以抓取B站https://www.bilibili.com/video/av1238716的評論信息為例(其他頁面評論信息也行),如下:
1.首先,按F12調(diào)出開發(fā)者工具,依次點(diǎn)擊“網(wǎng)絡(luò)”->“所有”,刷新頁面,如下,所有的抓包信息便會顯示出來:
仔細(xì)分析,我們就會發(fā)現(xiàn)reply這個(gè)文件比較大,而且還是json的,很可能就是評論信息,點(diǎn)擊進(jìn)去,果然,就是我們需要爬取的評論信息,如下:
2.接著,針對上面的json文件,我們就可以編寫對應(yīng)的代碼來進(jìn)行解析了,主要用到requests和json這2個(gè)包,requests主要用于根據(jù)url請求json文件,json主要用于解析json文件,提取出我們需要的信息,主要代碼如下:
程序運(yùn)行截圖如下,已經(jīng)成功爬取到評論信息:
3.最后,就是保存我們爬取的評論信息了,代碼如下,很簡單,主要用到xlwt這個(gè)包,專門用于寫入數(shù)據(jù)到excel中:
程序運(yùn)行截圖如下,已經(jīng)成功保存信息到excel中:
至此,我們就完成了利用python來爬取B站評論信息。總的來說,這個(gè)過程很簡單,就是抓包分析獲取到j(luò)son,然后解析json提取出我們需要的數(shù)據(jù)就行,只要你有一定的python基礎(chǔ),會簡單的抓包分析,熟悉一下相關(guān)示例和代碼,很快就能掌握的,當(dāng)然,你也可以使用scrapy框架來爬取數(shù)據(jù),都可以,網(wǎng)上也有相關(guān)教程和資料,感興趣的可以搜一下,希望以上分享的內(nèi)容能對你有所幫助吧,也歡迎大家評論、留言。