怎么從西瓜視頻上下載一些經典小視頻并去除水印?
可以使用ForeSpider數據采集系統采集西瓜視頻,具體操作如下所示:
l 采集網站
【場景描述】采集西瓜視頻中的所有直播視頻及主播信息。
【使用工具】前嗅ForeSpider數據采集系統,點擊下方鏈接即可免費下載。
免費下載ForeSpiderwww.forenose.com/view/forespider/view/download.html
【入口網址】https://live.ixigua.com/category/1/109/
【采集內容】
采集西瓜視頻中的所有直播視頻及主播信息,包括主播昵稱、房間號、視頻地址、網站名稱、直播網址、直播視頻、采集時間、主播熱度。
【采集效果】如下圖所示:
l 思路分析
配置思路概覽:
l 配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
選擇普通翻頁,點擊完成按鈕,即創建任務完成。
2. 直播分類鏈接獲取
①在瀏覽器中點擊不同分類的直播,將對應鏈接復制出來,觀察鏈接規律。
發現不同分類直播的鏈接規律為:
https://live.ixigua.com/category/1/分類id/
②點擊頁面右鍵【查看源文件】,在源碼中查找分類id,發現分類id在源碼的js中。
將該段源碼復制進行js格式化在線轉化,可更加清楚的看到結構。如下圖所示能夠看出,我們需要的分類名稱和id是在【sideBarData】數組的第三個對象中的【childs】數組中。
③打開腳本窗口,新建腳本。
根據剛才發現的規律,用腳本來拼分類鏈接,編寫好后點擊右上角保存。
具體如下所示:
④采集預覽,復制任意一條分類鏈接,在瀏覽器中打開,看是否為該頁內容。
3.各主播直播鏈接
①新建模板02,在模板02下建一個鏈接抽取,具體操作如下圖所示。
②在瀏覽器上打開任意一個分類,復制價格主播直播鏈接,觀察其規律,具體如下:
③不難發現主播直播規律為: https://live.ixigua.com/主播id/
④點擊F12,查看請求,發現主播id在下圖所示請求中https://live.ixigua.com/api/feed/category/1/74?_signature=iYkdqAAgEB7evlXzywm4yYmJHbAAOmK
(測試發現鏈接后半部分不加也可以打開該請求,故腳本中省略后半部分)
請求地址規律為:https://live.ixigua.com/api/feed/category/1/分類id
⑤根據剛才發現的規律,用腳本來拼分類請求鏈接,獲取到請求中的源碼,從而拼出主播頁面鏈接。
具體如下所示:
⑥保存腳本后,點擊右上角【采集預覽】按鈕,雙擊任意一條鏈接,進入下一層,復制任意一條主播鏈接,在瀏覽器打開,看是否成功抽取主播鏈接。
3.抽取主播數據
①新建一個抽取模板,在其下新建一個數據抽取,具體操作如下所示:
②數據建表
點擊圖中加號,新建一個數據表,然后添加字段,各字段屬性如下圖所示:
③將新建好的數據表,關聯到模板中去,如下圖所示:
④字段抽取
字段抽取使用腳本抽取的方法,在數據抽取模板中新建一個腳本窗口。
⑤采集預覽,復制一條翻頁的鏈接,在瀏覽器中打開。
⑥鼠標單擊右鍵,查看源文件,觀察可發現直播視頻鏈接在如下圖所示位置。
將以上一段js格式化后,觀察其位置,為【roomData】節點下的【playInfo】數組的第一個數組對象的FlvUrl。且本視頻鏈接部分為unicode編碼,需要轉碼一下。
⑦根據以上觀察,編寫數據抽取腳本,具體如下圖所示:
⑧采集預覽
點擊右上角采集預覽,如下圖所示:
l 采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
①首先要建立采集數據表:
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【xigua】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。
②高級設置,在高級配置中,設置采集視頻的最大限制,如下圖所示,這樣爬蟲采集15M就會停止采集,否則爬蟲將一直采集一個直播視頻直到直播結束。設置好后,點擊右上角保存按鈕。
③選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
③可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。
④導出的文件打開如下圖所示:
⑤導出視頻步驟如下圖所示:
l 前嗅簡介
前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!