如何將html網頁中的數據提取出來保存在數據庫中?
這種其實就是做一個采集工具了。
首先看你的需求,你需要采集一個網站的名稱和價格然后和另一個網站做對比。
那么總結一下,也就是你需要采集兩個網站的數據(對比其實就是按照名稱關聯一下)
在這里說一下爬蟲的幾個主要環節
1.網頁內容獲取(html獲取)
獲取的方法有很多種,最常見的就是直接通過get和post下載頁面html,基本所有語言都有現成的可以調用,當然你也會遇到異步加載或者其他問題,這時候可以試著使用調用瀏覽器解決。
2.網頁內容提取(你需要的名稱和借個提取)
網頁內容提取就是通過正則表達式或者xpath獲取你需要的數據,這個應該不用我多說
3.提取內容入庫(獲取到的數據保存到表格或者數據庫或者頁面顯示)
入庫的話就看你使用什么樣的形式了,一般會用輕量一點的數據庫,這樣之后對于比價(關聯查詢)也會比較方便。
需要用到的知識大概就是一點編程基礎(看一些開源的爬蟲程序),一些網絡基礎(抓包發包),會正則表達式或者xpath,有簡單的數據庫基礎,這樣感覺就差不多了。
當然現在網上的采集工具也很多,對于數據量不大或者采集比較簡單的可以不用自己寫程序,通過采集工具就可以完成。