網絡數據采集和處理的整體過程包括?
采集器在處理采集任務中,最重要的三部分是:網頁下載、翻頁、數據解析。其中各部分處理中需要注意的事項如下:
1. 翻頁
在大批量數據采集中,不建議設置翻頁。主要是翻頁信息的維護比較麻煩。為了不漏采數據,可以適度的增加采集頻率,來彌補未翻頁帶來的影響。
2. 標題
標題一般使用采集URL地址時A標簽的值。然后在正文解析時進行二次校驗,來糾正標題可能存在的錯誤。
3. 發布時間處理
發布時間解析難免會出問題,但是絕對不能大于當前時間。
一般是清除HTML源碼中css樣式、JS、注釋、meta等信息后,刪除HTML標簽,取內容中第一個時間作為發布時間。
一般可以統計一些發布時間標識,如:“發布時間:”,“發布日期”等。然后,通過正則表達式,獲取該標識前后100個長度的字符串中的時間,作為發布時間。