用爬蟲技術能做到哪些有趣的事情?
看到這個問題必須來怒答一波~用python爬蟲爬便宜機票了解一下?
喜歡旅行又怕吃土?讓Python來爬取最便宜機票吧!圖源:
videoblocks.com
你喜歡旅行嗎?
這個問題通常會得到一個肯定的答案,隨后引出一兩個有關之前冒險經歷的故事。大多數人都認為旅行是體驗新文化和開闊視野的好方法。但如果問題是“你喜歡搜索機票的過程嗎?”也許話題就到此為止了……
可事實上,便宜的機票往往也很重要!本文將嘗試構建一個網絡爬蟲,該爬蟲對特定目的地運行并執行帶有浮動日期(首選日期前后最多三天)的航班價格搜索。它會將結果保存為excel文件并發送一封包含快速統計信息的電子郵件。顯然,這個爬蟲的目的就是幫助我們找到最優惠的價格!
你可以在服務器上運行腳本(一個簡單的Raspberry Pi就可以),每天運行一到兩次。結果會以郵件形式發送,建議將excel文件存入Dropbox文件夾,以便隨時隨地查看。
因為爬蟲以“浮動日期”進行搜索,所以它會搜索首選日期前后最多三天的航班信息。盡管該腳本一次僅運行一對目的地,但可以很容易地改寫該爬蟲使其每個循環運行多個目的地。最終甚至可能找到一些錯誤票價...那會很有意思!
另一個爬蟲某種意義上來講,網絡爬取是互聯網“工作”的核心。
也許你認為這是一個十分大膽的說法,但谷歌就是從拉里·佩奇用Java和Python構建的網絡爬蟲開始的。爬蟲不斷地爬取信息,整個互聯網都在試圖為所有問題提供最佳的可能答案。網絡爬取有不計其數的應用程序,即使更喜歡數據科學中的其他分支,你仍需要一些爬取技巧以獲得數據。
這里用到的一些技術來自于最近新的一本佳作《Python網絡數據采集》,書中包含與網絡爬取相關的所有內容,并提供了大量簡例和實例。甚至有一個特別有意思的章節,講述如何解決驗證碼檢驗的問題。
Python的拯救第一個挑戰就是選擇爬取信息的平臺,本文選擇了客涯(Kayak)。我們試過了Momondo, 天巡(Skyscanner), 億客行(Expedia)和其它一些網站,但是這些網站上的驗證碼特別變態。
在那些“你是人類嗎?”的驗證中,嘗試了多次選擇交通燈、十字路口和自行車后,客涯似乎是最好的選擇,盡管短時間內加載太多頁面它會跳出安全檢查。
我們設法讓機器人每4到6個小時查詢一次網站,結果一切正常。雖然說不定哪個部分偶爾會出點小問題,但是如果收到驗證碼,既可以手動解決問題后啟動機器人,也可以等待幾小時后的自動重啟。
如果你是網絡爬取新手,或者不知道為何有些網站花費很大力氣阻止網絡爬取,那么為構建爬蟲寫下第一行代碼前,你一定要多加努力。
谷歌的“網絡爬取規范”:
http://lmgtfy.com/?q=web+scraping+etiquette
系緊安全帶...導入并打開Chrome瀏覽器標簽頁后,會定義一些循環中會用到的函數。這個架構的構思大概是這樣的:
· 一個函數用于啟動機器人程序,表明想要搜索的城市和日期。
· 這個函數獲得首輪搜索結果,按“最佳”航班排序,然后點擊“加載更多結果”。
· 另一個函數會爬取整個頁面,并返回一個dataframe數據表。
· 隨后重復步驟2和步驟3,得出按“價格”和“航行時間”排序的結果。
· 發送一封簡要總結價格(最低價和平均價)的郵件,并將帶有這三種排序類型的dataframe數據表保存為一份excel文件。
· 以上所有步驟會在循環中重復,每X小時運行一次。
每個Selenium項目都以一個網頁驅動器開始。我們使用Chromedriver驅動器,但還有其它選擇。PhantomJS和Firefox也很受歡迎。下載Chromedriver后,將其置于一個文件夾中即可。第一行代碼會打開一個空白Chrome標簽頁。
from time import sleep, strftime
from random import randint
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import smtplib
from email.mime.multipart import MIMEMultipart
# Change this to your own chromedriver path!
chromedriver_path = 'C:/{YOUR PATH HERE}/chromedriver_win32/chromedriver.exe'
driver = webdriver.Chrome(executable_path=chromedriver_path) # This will open the Chrome window
sleep(2)
這些是將用于整個項目的包。使用randint函數令機器人在每次搜索之間隨機睡眠幾秒鐘。這對任何一個機器人來說都是必要屬性。如果運行前面的代碼,應該打開一個Chrome瀏覽器窗口,機器人會在其中導航。
一起來做一個快速測試:在另一個窗口上訪問客涯網(http://kayak.com),選擇往返城市和日期。選擇日期時,確保選擇的是“+-3天”。由于在編寫代碼時考慮到了結果頁面,所以如果只想搜索特定日期,很可能需要做一些微小的調整。
點擊搜索按鈕在地址欄獲取鏈接。它應該類似于下面所使用的鏈接,將變量kayak定義為url,并從網頁驅動器執行get方法,搜索結果就會出現。
無論何時,只要在幾分鐘內使用get命令超過兩到三次,就會出現驗證碼。實際上可以自己解決驗證碼,并在下一次驗證出現時繼續進行想要的測試。從測試來看,第一次搜索似乎一直沒有問題,所以如果想運行這份代碼,并讓它在較長的時間間隔后運行,必須解決這個難題。你并不需要十分鐘就更新一次這些價格,對吧?
每個XPath都有陷阱到目前為止,已經打開了一個窗口,獲取了一個網站。為了開始獲取價格和其他信息,需要使用XPath或CSS選擇器,我們選擇了XPath。使用XPath導航網頁可能會令人感到困惑,即使使用從inspector視圖中直接使用“復制XPath”,但這不是獲得所需元素的最佳方法。有時通過“復制XPath”這個方法獲得的鏈接過于針對特定對象,以至于很快就失效了。《Python網絡數據采集》一書很好地解釋了使用XPath和CSS選擇器導航的基礎知識。
接下來,用Python選擇最便宜的結果。上面代碼中的紅色文本是XPath選擇器,在網頁上任意一處右鍵單擊選擇“inspect”就可以看到它。在想要查看代碼的位置,可以再次右鍵單擊選擇“inspect”。
為說明之前所觀察到的從“inspector”復制路徑的缺陷,請參考以下差異:
1 # This is what the copymethod would return. Right click highlighted rows on the right side and select “copy> Copy XPath”//*[@id=“wtKI-price_aTab”]/div[1]/div/div/div[1]/div/span/span
2 # This is what I used todefine the “Cheapest” buttoncheap_results= ‘//a[@data-code = “price”]’
第二種方法的簡潔性清晰可見。它搜索具有data-code等于price屬性的元素a。第一種方法查找id等于wtKI-price_aTab的元素,并遵循第一個div元素和另外四個div和兩個span。這次……會成功的。現在就可以告訴你,id元素會在下次加載頁面時更改。每次頁面一加載,字母wtKI會動態改變,所以只要頁面重新加載,代碼就會失效。花些時間閱讀XPath,保證你會有收獲。
不過,使用復制的方法在不那么“復雜”的網站上工作,也是很好的!
基于以上所展示的內容,如果想在一個列表中以幾個字符串的形式獲得所有搜索結果該怎么辦呢?其實很簡單。每個結果都在一個對象中,這個對象的類是“resultWrapper”。獲取所有結果可以通過像下面這樣的for循環語句來實現。如果你能理解這一部分,應該可以理解接下來的大部分代碼。它基本上指向想要的結果(結果包裝器),使用某種方式(XPath)獲得文本,并將其放置在可讀對象中(首先使用flight_containers,然后使用flight_list)。
前三行已展示在圖中,并且可以清楚地看到所需的內容,但是有獲得信息的更優選擇,需要逐一爬取每個元素。
準備起飛吧!最容易編寫的函數就是加載更多結果的函數,所以代碼由此開始。為了在不觸發安全驗證的前提下最大化所獲取的航班數量,每次頁面顯示后,單擊“加載更多結果”。唯一的新內容就是所添加的try語句,因為有時按鈕加載會出錯。如果它對你也有用,只需在前面展示的start_kayak函數中進行簡要注釋。
# Load more results to maximize the scraping
def load_more():
try:
more_results = '//a[@class = “moreButton”]'
driver.find_element_by_xpath(more_results).click()
# Printing these notes during the program helps me quickly check what it is doing
print('sleeping…..')
sleep(randint(45,60))
except:
pass
現在,經過這么長的介紹,已經準備好定義實際爬取頁面的函數。
我們編譯了下一個函數page_scrape中的大部分元素。有時這些元素會返回列表插入去程信息和返程信息之間。這里使用了一個簡單的辦法分開它們,比如在第一個 section_a_list和section_b_list變量中,該函數還返回一個flight_df數據表。所以可以分離在不同分類下得到的結果,之后再把它們合并起來。
def page_scrape():
“““This function takes care of the scraping part”““
xp_sections = '//*[@class=“section duration”]'
sections = driver.find_elements_by_xpath(xp_sections)
sections_list = [value.text for value in sections]
section_a_list = sections_list[::2] # This is to separate the two flights
section_b_list = sections_list[1::2] # This is to separate the two flights
# if you run into a reCaptcha, you might want to do something about it
# you will know there's a problem if the lists above are empty
# this if statement lets you exit the bot or do something else
# you can add a sleep here, to let you solve the captcha and continue scraping
# i'm using a SystemExit because i want to test everything from the start
if section_a_list == []:
raise SystemExit
# I'll use the letter A for the outbound flight and B for the inbound
a_duration = []
a_section_names = []
for n in section_a_list:
# Separate the time from the cities
a_section_names.append(''.join(n.split()[2:5]))
a_duration.append(''.join(n.split()[0:2]))
b_duration = []
b_section_names = []
for n in section_b_list:
# Separate the time from the cities
b_section_names.append(''.join(n.split()[2:5]))
b_duration.append(''.join(n.split()[0:2]))
xp_dates = '//div[@class=“section date”]'
dates = driver.find_elements_by_xpath(xp_dates)
dates_list = [value.text for value in dates]
a_date_list = dates_list[::2]
b_date_list = dates_list[1::2]
# Separating the weekday from the day
a_day = [value.split()[0] for value in a_date_list]
a_weekday = [value.split()[1] for value in a_date_list]
b_day = [value.split()[0] for value in b_date_list]
b_weekday = [value.split()[1] for value in b_date_list]
# getting the prices
xp_prices = '//a[@class=“booking-link”]/span[@class=“price option-text”]'
prices = driver.find_elements_by_xpath(xp_prices)
prices_list = [price.text.replace('$','') for price in prices if price.text != '']
prices_list = list(map(int, prices_list))
# the stops are a big list with one leg on the even index and second leg on odd index
xp_stops = '//div[@class=“section stops”]/div[1]'
stops = driver.find_elements_by_xpath(xp_stops)
stops_list = [stop.text[0].replace('n','0') for stop in stops]
a_stop_list = stops_list[::2]
b_stop_list = stops_list[1::2]
xp_stops_cities = '//div[@class=“section stops”]/div[2]'
stops_cities = driver.find_elements_by_xpath(xp_stops_cities)
stops_cities_list = [stop.text for stop in stops_cities]
a_stop_name_list = stops_cities_list[::2]
b_stop_name_list = stops_cities_list[1::2]
# this part gets me the airline company and the departure and arrival times, for both legs
xp_schedule = '//div[@class=“section times”]'
schedules = driver.find_elements_by_xpath(xp_schedule)
hours_list = []
carrier_list = []
for schedule in schedules:
hours_list.append(schedule.text.split('\n')[0])
carrier_list.append(schedule.text.split('\n')[1])
# split the hours and carriers, between a and b legs
a_hours = hours_list[::2]
a_carrier = carrier_list[1::2]
b_hours = hours_list[::2]
b_carrier = carrier_list[1::2]
cols = (['Out Day', 'Out Time', 'Out Weekday', 'Out Airline', 'Out Cities', 'Out Duration', 'Out Stops', 'Out Stop Cities',
'Return Day', 'Return Time', 'Return Weekday', 'Return Airline', 'Return Cities', 'Return Duration', 'Return Stops', 'Return Stop Cities',
'Price'])
flights_df = pd.DataFrame({'Out Day': a_day,
'Out Weekday': a_weekday,
'Out Duration': a_duration,
'Out Cities': a_section_names,
'Return Day': b_day,
'Return Weekday': b_weekday,
'Return Duration': b_duration,
'Return Cities': b_section_names,
'Out Stops': a_stop_list,
'Out Stop Cities': a_stop_name_list,
'Return Stops': b_stop_list,
'Return Stop Cities': b_stop_name_list,
'Out Time': a_hours,
'Out Airline': a_carrier,
'Return Time': b_hours,
'Return Airline': b_carrier,
'Price': prices_list})[cols]
flights_df['timestamp'] = strftime(“%Y%m%d-%H%M”) # so we can know when it was scraped
return flights_df
盡量讓這些名字容易理解。記住變量a表示旅行的去程信息,變量b表示旅行的返程信息。接下來說說下一個函數。
等等,還有什么嗎?截至目前,已經有了一個能加載更多結果的函數和一個能爬取其他結果的函數。本可以在此結束這篇文章,而你可以自行手動使用這些函數,并在瀏覽的頁面上使用爬取功能。但是前文提到給自己發送郵件和一些其他信息的內容,這都包含在接下來的函數start_kayak中。
它要求填入城市名和日期,并由此打開一個kayak字符串中的地址,該字符串直接跳轉到“最佳”航班結果排序頁面。第一次爬取后,可以獲取價格的頂部矩陣,這個矩陣將用于計算平均值和最小值,之后和客涯(Kayak)的預測結果(頁面左上角)一同發送到郵件中。這是單一日期搜索時可能導致錯誤的原因之一,因其不包含矩陣元素。
def start_kayak(city_from, city_to, date_start, date_end):
“““City codes - it's the IATA codes!
Date format - YYYY-MM-DD”““
kayak = ('https://www.kayak.com/flights/' + city_from + '-' + city_to +
'/' + date_start + '-flexible/' + date_end + '-flexible?sort=bestflight_a')
driver.get(kayak)
sleep(randint(8,10))
# sometimes a popup shows up, so we can use a try statement to check it and close
try:
xp_popup_close = '//button[contains(@id,”dialog-close”) and contains(@class,”Button-No-Standard-Style close “)]'
driver.find_elements_by_xpath(xp_popup_close)[5].click()
except Exception as e:
pass
sleep(randint(60,95))
print('loading more.....')
# load_more()
print('starting first scrape.....')
df_flights_best = page_scrape()
df_flights_best['sort'] = 'best'
sleep(randint(60,80))
# Let's also get the lowest prices from the matrix on top
matrix = driver.find_elements_by_xpath('//*[contains(@id,”FlexMatrixCell”)]')
matrix_prices = [price.text.replace('$','') for price in matrix]
matrix_prices = list(map(int, matrix_prices))
matrix_min = min(matrix_prices)
matrix_avg = sum(matrix_prices)/len(matrix_prices)
print('switching to cheapest results…..')
cheap_results = '//a[@data-code = “price”]'
driver.find_element_by_xpath(cheap_results).click()
sleep(randint(60,90))
print('loading more…..')
# load_more()
print('starting second scrape…..')
df_flights_cheap = page_scrape()
df_flights_cheap['sort'] = 'cheap'
sleep(randint(60,80))
print('switching to quickest results…..')
quick_results = '//a[@data-code = “duration”]'
driver.find_element_by_xpath(quick_results).click()
sleep(randint(60,90))
print('loading more…..')
# load_more()
print('starting third scrape…..')
df_flights_fast = page_scrape()
df_flights_fast['sort'] = 'fast'
sleep(randint(60,80))
# saving a new dataframe as an excel file. the name is custom made to your cities and dates
final_df = df_flights_cheap.append(df_flights_best).append(df_flights_fast)
final_df.to_excel('search_backups//{}_flights_{}-{}_from_{}_to_{}.xlsx'.format(strftime(“%Y%m%d-%H%M”),
city_from, city_to,
date_start, date_end), index=False)
print('saved df…..')
# We can keep track of what they predict and how it actually turns out!
xp_loading = '//div[contains(@id,”advice”)]'
loading = driver.find_element_by_xpath(xp_loading).text
xp_prediction = '//span[@class=“info-text”]'
prediction = driver.find_element_by_xpath(xp_prediction).text
print(loading+'\n'+prediction)
# sometimes we get this string in the loading variable, which will conflict with the email we send later
# just change it to “Not Sure” if it happens
weird = 'ˉ\\_(ツ)_/ˉ'
if loading == weird:
loading = 'Not sure'
username = 'YOUREMAIL@hotmail.com'
password = 'YOUR PASSWORD'
server = smtplib.SMTP('smtp.outlook.com', 587)
server.ehlo()
server.starttls()
server.login(username, password)
msg = ('Subject: Flight Scraper\n\n\
Cheapest Flight: {}\nAverage Price: {}\n\nRecommendation: {}\n\nEnd of message'.format(matrix_min, matrix_avg, (loading+'\n'+prediction)))
message = MIMEMultipart()
message['From'] = 'YOUREMAIL@hotmail.com'
message['to'] = 'YOUROTHEREMAIL@domain.com'
server.sendmail('YOUREMAIL@hotmail.com', 'YOUROTHEREMAIL@domain.com', msg)
print('sent email…..')
雖然沒有使用Gmail賬戶測試發送郵件,但是可以搜索到很多的替代方法,前文提到的那本書中也有其他方法來實現這一點。如果已有一個Hotmail賬戶,只要替換掉個人的詳細信息,它就會開始工作了。
如果想探索腳本的某一部分正在做什么,可以將腳本復制下來并在函數外使用它。這是徹底理解它的唯一方法。
利用剛才創造的一切在這些步驟之后,還可以想出一個簡單的循環來使用剛創造的函數,同時使其持續運行。完成四個“花式”提示,寫下城市和日期(輸入)。因為測試時不想每次都輸入這些變量,需要的時候可以使用以下這個清楚的方式進行替換。
如果已經做到了這一步,恭喜你!改進還有很多,比如與Twilio集成,發送文本消息而不是郵件。也可以使用VPN或更加難懂的方式同時從多個服務器上研究搜索結果。還有就是驗證碼的問題,驗證碼會時不時地跳出來,但對此類問題還是有解決辦法的。不過,能走到這里已經是有很牢固的基礎了,你可以嘗試添加一些額外的要素。
使用腳本運行測試的示例
留言 點贊 關注
我們一起分享AI學習與發展的干貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”