色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

python 爬蟲 p站

錢艷冰2年前11瀏覽0評論

隨著互聯網技術的不斷發展,爬蟲技術成為了一項越來越重要的技能,而P站作為全球最大的二次元社區之一,也成為了不少程序員探究的對象。使用Python編寫P站爬蟲,是一項很有趣且有挑戰的任務。

import requests
import os
import re
def save_img(img_url, file_path):
response = requests.get(img_url, stream=True)
with open(file_path,"wb") as f:
for chunk in response.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
def download_imgs(start_page, end_page, save_path):
for i in range(start_page, end_page+1):
url = "https://www.pixiv.net/ranking.php?mode=daily&page=" + str(i)
headers = {'Referer': url}
response = requests.get(url, headers=headers)
html = response.content.decode("utf-8")
img_urls = re.findall(r'data-src="(https://.*?\.jpg)"', html)
rank_num = re.findall(r'data-rank-text="(.*?位)"', html)
for j, url in enumerate(img_urls):
file_path = os.path.join(save_path, rank_num[j] + "_" + os.path.basename(url))
if not os.path.exists(file_path):
save_img(url, file_path)
print("Congratulations! All images are downloaded successfully!")
if __name__ == "__main__":
download_imgs(1, 10, "./P站排行榜") # 輸入起始頁碼,結束頁碼和存儲路徑

上述爬蟲代碼使用了Python的requests庫和正則表達式,實現了從P站排行榜中下載兩個指定頁面之間的所有圖片,并保存在指定目錄下。用戶只需要指定起始頁碼、結束頁碼和存儲路徑即可完成爬取。

需要說明的是,P站是一個擁有強大技術人員維護的網站,因此在爬取時要注意一些規則。為了避免被封號或者被屏蔽IP,需要通過一些技巧來隱藏自己的請求頭信息,如上面代碼中通過設置Referer頭部信息。

總之,爬蟲技術可以應用于許多實際工作中,如數據采集、數據分析等,希望大家能夠好好掌握這一技能,并注意保護好自己。