Python爬蟲是一種非常強大的爬取互聯(lián)網(wǎng)數(shù)據(jù)的工具,可以輕松地爬取網(wǎng)站上的數(shù)據(jù)。本文將介紹如何使用Python爬蟲爬取智聯(lián)招聘的數(shù)據(jù),并進(jìn)行簡單的數(shù)據(jù)分析。
import requests # 導(dǎo)入requests庫 import pandas as pd # 導(dǎo)入pandas庫 from bs4 import BeautifulSoup # 導(dǎo)入BeautifulSoup庫 url = 'https://sou.zhaopin.com/?jl=530&kw=Python&kt=3' # 目標(biāo)網(wǎng)站地址 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'} response = requests.get(url, headers=headers) # 發(fā)送GET請求 soup = BeautifulSoup(response.text, 'html.parser') # 解析網(wǎng)頁內(nèi)容 job_list = soup.find_all('table', class_='newlist')[1].find_all('tr')[1:] # 提取職位列表 data = [] for job in job_list: title = job.find_all('td')[0].find('a').get_text() # 獲取職位名稱 company = job.find_all('td')[1].find('a').get_text() # 獲取公司名稱 salary = job.find_all('td')[2].get_text() # 獲取工資信息 location = job.find_all('td')[3].get_text() # 獲取工作地點 data.append({'職位名稱': title, '公司名稱': company, '工資信息': salary, '工作地點': location}) df = pd.DataFrame(data) # 將數(shù)據(jù)轉(zhuǎn)為DataFrame格式 df.to_csv('job.csv', encoding='utf-8', index=False) # 將數(shù)據(jù)保存為CSV文件 print(df.head()) # 打印前5行數(shù)據(jù)
以上代碼使用requests庫發(fā)送GET請求,然后使用BeautifulSoup庫解析網(wǎng)頁內(nèi)容,最后將數(shù)據(jù)轉(zhuǎn)換為DataFrame格式,并將數(shù)據(jù)保存為CSV文件。
通過分析數(shù)據(jù),我們可以使用pandas庫進(jìn)行簡單的數(shù)據(jù)分析。例如,我們可以統(tǒng)計Python招聘公司的數(shù)量,工資的分布情況等等。這些分析都可以通過數(shù)據(jù)可視化的方式呈現(xiàn)。