python 爬蟲天眼查

Python是一種十分強大的編程語言，其中最常見的用途之一就是通過爬蟲技術從互聯網上獲取數據。現在有一個非常流行的網站，就是天眼查。

天眼查是一個提供企業信息查詢、風險預警和商業信息分析等服務的平臺。許多人都想從這個網站上獲取一些數據信息，但如果手工操作將是非常麻煩的一件事情。因此，這里就提供了一個Python爬蟲天眼查的例子，幫助大家快速獲取數據信息。

import requests
from lxml import etree
def main():
url = "https://www.tianyancha.com/search?key=阿里巴巴"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3", 
"cookie": "cookie_value"
}
response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
company_urls = html.xpath("http://div[@class='content']/div/div[2]/a/@href")
for company_url in company_urls:
detail_url = "https://www.tianyancha.com" + company_url
detail_response = requests.get(detail_url, headers=headers)
detail_html = etree.HTML(detail_response.text)
company_name = detail_html.xpath("http://h1[@class='name']/text()")[0]
legal_name = detail_html.xpath("http://div[@class='humancompany']//div[@class='human']/a/text()")[0]
register_fund = detail_html.xpath("http://div[@class='company-content']/table/tbody//tr[4]/td[2]/text()")[0]
print(company_name, legal_name, register_fund)
if __name__ == '__main__':
main()

上述例子中，我們首先發起一個攜帶cookie的HTTP請求，然后解析此網頁的HTML代碼。然后我們在公司列表頁面中獲取到了每個企業的詳細頁面的URL地址，然后對于每個企業，我們都發起了一個HTTP請求來獲取詳細信息，然后提取相關信息進行輸出。

使用Python爬蟲天眼查并不是一件很難的事情，而且這個例子中也只是在獲取一些簡單的信息。但是，其實使用Python爬蟲的應用還是十分廣泛的。因此，無論你是要用來獲取信息，還是獲取知識點，都可以通過Python爬蟲實現。

上一篇vue中豎表頭

下一篇python 爬蟲工程是

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網站導航

網站導航

網站分類

python 爬蟲天眼查

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網站導航

網站導航

網站分類

python 爬蟲天眼查

相關文章