Python是一種功能強大的編程語言,可以幫助我們編寫各種自動化工具,其中一種就是爬蟲。爬蟲是指在互聯網上自動獲取數據的程序,而天眼查是一家提供企業信息查詢服務的網站。下面我們就使用Python爬取天眼查的企業信息。
import requests import json url = 'https://www.tianyancha.com/search?key={}&checkFrom=searchBox' company_name = input('請輸入要查詢的公司名稱:') headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 'Referer': 'https://www.tianyancha.com/', 'Cookie': 'I4SUserLocale=zh; _csrf=eiVhyGY1gnnAt1VUwMBN; Hm_lvt_e92c8d65d92d534b0fc290df538b4758=1633800983; Hm_lpvt_e92c8d65d92d534b0fc290df538b4758=1633801833; TYCID=aeee8bb05c1f11ec84a671b72a18f8d9; ssuid=8186227010; rt=; zdata=300015%7C0; _ga=GA1.2.1988476472.1633800983; _gid=GA1.2.684139867.1633800983; jsid=SEM-BAIDU-PZPC-000000; cloud_token=e942a8e8a2004c0c3271ccc5f5bc5cdc; csrfToken=eiVhyGY1gnnAt1VUwMBN; _gat_gtag_UA_123487620_1=1; bannerFlag=true; Hm_lvt_d7682ab43891c68a00de46e9ce5b76aa=1633800983; Hm_lpvt_d7682ab43891c68a00de46e9ce5b76aa=1633801835; dc_session_id=10_1633807155296.885066; acw_tc=7c4e4d0e16339628886955598e36c215a0510d98cc0c08e8b34c7e0aec' } response = requests.get(url.format(company_name), headers=headers) if response.status_code == 200: data = json.loads(response.text) first_data = data['data']['items'][0] if data['data']['itemTotalCount'] >0 else None if first_data: print('公司名稱:', first_data['name']) print('統一社會信用代碼:', first_data['creditCode']) print('法定代表人:', first_data['legalPersonName']) print('所在省份:', first_data['province']) print('所在城市:', first_data['city']) print('注冊資本:', first_data['regCapital']) print('聯系電話:', first_data['phoneNumber']) else: print('未找到公司:', company_name) else: print('請求失敗,狀態碼:', response.status_code)
以上代碼使用requests庫發送請求,通過解析返回的json數據獲取企業信息。其中Headers中的Cookie為登錄天眼查后從瀏覽器復制的Cookie,可以用來繞過反爬蟲機制。如果遇到被反爬蟲攔截的情況,也可以嘗試使用代理IP和UA偽裝等方法。