色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

如何利用python爬取嗶哩嗶哩上的彈幕評(píng)論

如何利用python爬取嗶哩嗶哩上的彈幕評(píng)論?

這個(gè)實(shí)現(xiàn)起來很簡(jiǎn)單,主要是抓包分析,嗶哩嗶哩的彈幕信息都保存在一個(gè)xml文件中,只要找到這個(gè)xml文件,然后進(jìn)行解析,就能提取到我們所需的彈幕信息,下面我簡(jiǎn)單介紹一下實(shí)現(xiàn)過程,實(shí)驗(yàn)環(huán)境win10+python3.6+pycharm5.0,主要內(nèi)容如下:

1.這里假設(shè)我們要爬取的是《動(dòng)物世界》的彈幕信息,如下,看著信息好多:

接著按F12調(diào)出開發(fā)者工具如下,分別點(diǎn)擊“網(wǎng)絡(luò)”->“XHR”,刷新頁面,查看抓包信息,很快就能發(fā)現(xiàn)list.so這個(gè)文件很大,而且是xml格式的,很可能是彈幕信息:

打開這個(gè)文件,復(fù)制鏈接到瀏覽器中,果然出現(xiàn)了我們需要的彈幕信息,如下:

2.接著就是爬取這個(gè)xml文件,并進(jìn)行解析了,其實(shí)很簡(jiǎn)單,主要用到requests和BeautifulSoup這2個(gè)組合,requests請(qǐng)求xml文件,BeautifulSoup進(jìn)行解析,很快就能提取到我們需要的彈幕信息,主要代碼如下,很簡(jiǎn)單:

程序運(yùn)行截圖如下,已經(jīng)成功解析出彈幕信息:

3.對(duì)抓取的彈幕信息進(jìn)行簡(jiǎn)單統(tǒng)計(jì)分析,這里以詞云進(jìn)行顯示吧,更直觀、明了,還顯得高大上,主要是先進(jìn)行分詞,然后再繪制詞云,主要用到wordcloud和jieba這2個(gè)包,其中jieba用于中文分詞,wordcloud用于繪制詞云,主要步驟如下:

安裝jieba,wordcloud這2個(gè)包,這里直接在cmd窗口pip install安裝就行,如下:

分詞及繪制詞云圖代碼(背景圖片可以自行設(shè)置),如下,很簡(jiǎn)單:

程序運(yùn)行成功后,會(huì)在當(dāng)前目錄下生成一個(gè)alice_color.png圖片,打開這個(gè)圖片,就是我們生成好的詞云圖,如下:

可以看得出來,“會(huì)員”,“富有”,“微笑”是詞頻最高的3個(gè)詞,看來看《動(dòng)物世界》還需要會(huì)員,里面的人物都很富有啊,哈哈哈。

至此,我們就完成了利用python來爬取嗶哩嗶哩的彈幕信息,并進(jìn)行了簡(jiǎn)單的統(tǒng)計(jì)展示。總的來說,整個(gè)過程不難,只要抓包分析,找到對(duì)應(yīng)的xml文件,結(jié)合requests和BeautifulSoup,我們很快就能提取出所需的彈幕信息,網(wǎng)上也有相關(guān)資料和教程,感興趣的可以搜一下,希望以上分享的內(nèi)容能對(duì)你有所幫助吧。