用Python寫一個爬蟲?
可以實現,先說一下思路。首先我們要通過爬蟲把這些冷門行業的相關數據都爬下來,然后把這個行業相關的https://www.b5b6.com/shujuku/存儲到https://www.b5b6.com/shujuku/,做一個分類,之后在https://www.b5b6.com/shujuku/這邊做一個查詢。
在開始之前需要了解的一些東西:搜索引擎主要有兩部分:
1.爬蟲:也就是離線以獲取數據
2.檢索系統:在線查詢數據,完成用戶交互
開源工具:
Python爬蟲Scrapy
Java檢索系統:Elasticsearch/Solr
Python相關知識點:如果只是用Python實現爬蟲的這樣的項目的話,需要學習的內容是上圖當中的Python基礎知識,python高級,https://www.b5b6.com/qianduan/開發以及爬蟲開發。Python爬蟲的重點是不在于Python,而是網絡爬蟲。
下面說該問題原理:向瀏覽器請求文檔
分析分類我們所返回的文檔
從中提取中自己想要的信息
針對上述上個步驟:
首先要了解HTTP,這里可以用Python的requests庫,要知道GET和POST請求頁面
對響應的文檔做分析,所以必須要知道的是HTML,這個很簡單;在處理HTML文檔可以用庫有BesutifulSoup和lxml等等,搜索一下這些庫的DOC
學習BesutifulSoup等庫,用select等方法提取你要的信息,在這中間可能會碰到編碼問題或者要學習正則表達式。
上一篇函數調用的優點