python爬蟲問題?
這里我想到了兩種:
1. 要爬取的鏈接是有規律的,比如像頁碼,是按順序增長的,可以通過for循環,加1的方式循環讀取頁面
2. 鏈接無規律,可以通過抓取初始頁面的一個鏈接,然后分析該頁面中所有滿足條件的url地址,將該地址保存在鏈表中,另個程序從這個鏈表中不斷的讀取數據,分析頁面,抓取新頁面中的鏈接,將其存在鏈表中,這樣就不斷的產生新的鏈接,不斷的可以抓取了
job_desc_url = "https://www.zhipin.com" + str(tag.div.h3.a.get("href"))