Python,可以幫忙搶票,可以爬蟲東西,關于Python爬蟲怎么做?今天教大家一個案例,python爬蟲多線程實戰:爬取美桌1080p壁紙圖片 | 技術
技術點分析
· 爬蟲requests
· 多線程threading
· 文件io讀寫操作
· xpath 提取ur
· 正則
實戰
· 分析url
搞清楚各個url 的關聯win4000.com/wallpaper_205_0_10_1.html
URL中與分類的關系:
wallpaper : 桌面壁紙
205 :壁紙分類對應大陸明星
10 :圖片尺寸對應1920*1080
分析到這一部,我們知道 ,如果要需要其他類型的壁紙,只需要更改網站分類代碼就可以了。
· 谷歌 charme ,通過右鍵檢查
chrame 瀏覽器右鍵提示。
按圖順序,依次找到對應的html標簽。
通過查看,我們發現 中間展示 的圖片是由一個ul 標簽包裹的 多個Li
我們所要跳轉的鏈接 就在 Li 標簽中, 這時就需要使用xpath進行數據的提取。
到此,我們第一層url 的分析就完成了。可以寫出以下代碼段。
此時通過xpath 獲到當前頁面中的 ul 中所有li 標簽了。
那單個明星的跳轉鏈接只需要再次xpath 進行提取就Ok了。
完成到這里你的代碼運行結果應該如下:是兩個列表list。
運行結果
準備下載圖片
到這,完成第一步,你已經成功獲到 每個明星的跳轉鏈接 :
url: win4000.com/wallpaper_detail_153895.html
再次進行url 的分析:
初步分析
通過上圖的分析,可以找到這張圖,是我們要 1080規格的。但很可惜,一共9張,現在只能找到一張圖片的url。
選其中兩張圖片地址對比:
pic1.win4000.com/wallpaper/2018-12-26/5c22eb195abe8.jpg
pic1.win4000.com/wallpaper/2018-12-26/5c22eb1c722dc.jpg
好像就是后面文件名不同。如果一張張取是不是很麻煩?
不信你自己去試一下。點再分析一下頁面,有個 【查看原圖】 選項,點一下試試呢?
點擊上圖出,點完發現了url的變化。
再看看有沒有驚喜的地方 :
上圖為url分析。
通過上圖的分析 ,我們發現原來這個big頁面有我們想要的所有 1080P的圖片,而且,全是用ul 包裹,放到單個Li 標簽中 。那簡單了,用之前的辦法 再提取一次,就出來了。代碼如下:
到這里,我們第一步就完成了一頁24個明星圖片的地址url的爬取。第二步,完成了單個明星的1080圖片地址url的爬取。下一步,我們把圖片保存到本地就順利結束。
圖片保存
按需求,要單獨到一個文件夾內。那我們就需要在本地路徑內 創建對應的文件夾。此處使用 star_img_name 列表中的值。需要使用到i/o讀寫操作。
順利完成 這個需求:
源碼展示
代碼運行結果若不同,可看一眼源碼:
運行起來是不是很慢(完善版使用多線程),而且這樣看代碼,是不是有種:干干巴巴的,麻麻咧咧的,一點都不圓潤,盤他!!
完善版是可以完成可選分類,可選規格 ,多線程版。希望這個小實戰案例可以幫到大家。
有關于Python爬蟲的課程:
Python爬蟲數據挖掘基礎教程
python網絡爬蟲第一天
python網絡爬蟲第二天
有想學習的小伙伴,可以關注黑馬程序員,后臺回復“Python爬蟲”哦!
學習Python可以參考回答:https://www.wukong.com/question/6621147311907012872/
Python可以用來做:
Web 應用開發、自動化運維、網絡爬蟲、數據分析、科學計算、人工智能,還可以用在各種場景與各種平臺、設備、語言進行連接,因此被稱為膠水語言。
相關崗位:
Linux運維
Python web網站工程師
Python web全棧工程師
Python自動化測試
Python 爬蟲開發工程師
數據分析師
網絡編程工程師
......
既然一直用Java應該在編程這一塊是比較擅長的,我想提這個問題的人是想知道python的應用領域,這里談一下我個人看法。
人工智能領域,因為最近幾年人工智能的火熱,Python也深受大家的歡迎,不知道有沒有受到相關的感染
python在人工智能方面的應用,python是一種簡單、易用但專業、嚴謹通用的語言,讓普通人很容易入門,把各種基本的元素組合在一起協調動作。
正是因為這樣,Python始終讓開發者關注業務邏輯的本身,而不用考慮CPU等其它一些性能方面的不足,如果執行速度慢,可以利用C語言,與之相配合,來達到執行速度的提升。
python在人工智能方面的應用,對我們來說,是一件好事,無論是電子商務、搜索引擎、智能硬件等,都只是產生數據的源泉,我們都可以使用python依據商業邏輯希望得到的結果。
python在web程序中的應用,django、flask等一批優秀的框架為我們寫web程序提供了最大可能的便捷
google、youtobe、豆瓣等國內外知名的公司都有在使用Python在開發應用,當然,對于我們普通的用記,Python中的django、flask框架為我們的web程序提供了最大的靈活性,我們可以通過簡單的幾行代碼,就可以寫出一個web程序,提高了我們的工作效率。
python在數據分析上的應用,更是許多人學習的初衷,簡單、便捷的處理數據方式,為數據分析師們提供了更多的可能。
一個非常好的問題。制定一個學習計劃,學習基礎知識后,多寫代碼。
一,學習計劃1. 制定一個切實可行的學習計劃,要自律,不可三天打魚兩天篩網
2. 保證學習時間,多寫代碼
二,學習Python基礎掌握Python語言基礎,數據類型、基本語法、常用數據結構、常用類,等等,網上資源很多。
三,多寫代碼推薦一個在線編程網站,HackerRank,看名字就知道很牛,Hacker排行榜。其實里面有很多針對初學者的編程練習題,并且提供了成績查詢、排名、競賽等功能。
1,注冊賬號,登錄,選擇要學習的編程語言
2,選擇題目,篩選難度、功能類別
3,編寫代碼,測試,提交
4,根據通過單元測試情況獲得分數,獲得Python勛章。
我是工作多年的Web應用架構師,陸續發布關于軟件開發方面的文章,歡迎關注我,了解更多IT專業知識。