色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

天眼查這類公司是通過什么手段獲取公司電話的

劉姿婷2年前15瀏覽0評論

天眼查這類公司是通過什么手段獲取公司電話的?

看了下天眼查的網站,除了工商數據之外,還有招聘數據、著作權、專利、商標、企業新聞等,這里只問到了企業工商數據,故先只回答企業工商數據的來源,其他部分有時間可以更新一下。

工商數據包括了工商基本信息、股東信息、工商變更信息、主要任職人員、企業分支機構、動產抵押、股權出質、行政處罰、企業年報等很多信息,其唯一可信的來源,是「全國企業信用信息公示系統」,也就是這個網站:

唯一合理的解釋是:天眼查通過網絡爬蟲抓取了全國企業信用信息公示系統的絕大部分公司工商數據。

這其中存在兩個難點:

這里只是一個聚合站,每個省的查詢接口和對應的 HTML 結構是不同的,如何高效抓取及解析數據;這個系統并沒有一個展示所有公司的列表,需要傳遞一個參數查詢,如何遍歷所有注冊公司。

對于解決方案,第一個難點有兩個需要解決的問題:1) 各省查詢的時候提交請求參數不同; 2) 解析的網頁結構不同。第一個無他法,只有硬著頭皮手寫三十多個不同的提交請求的方式,來模擬各省份不同的查詢接口。第二個,其實是可以做到通用,因為雖然網頁結構不完全相同,但是最后的呈現形式大同小異,所以是有方式做到非常通用的解析代碼的。之所以不說百分之百通用,是因為總有例外需要特殊處理,比如重慶的工商數據,返回的就是一個 JSON 串,不需要再去解析 HTML。

第二個問題才是真正棘手的。無法直接遍歷工商信息,那么怎樣獲取盡可能多的工商數據呢?第一,全國企業信用信息公示系統的訪問時很慢的,所以在這里做遍歷的話,效率會非常低。但是,每個公司會有唯一的組織機構代碼,生成規則可以在網上找到,或者可以直接買一本回去慢慢研究(組織機構代碼),通過生成所有的組織機構代碼,就可以去這個網站——「全國組織機構代碼管理中心 -- 誠信體系實名制查詢」——查詢到對應的基本信息,然后再會到剛才的全國企業信用信息公示系統,就可以查詢到對應的工商信息了。

另外,我相信天眼查還會做的一件事就是,當用戶查詢一家公司,在自己數據庫沒有找到結果的時候,會立即去全國企業信用信息公示系統查詢,并將結果保存下來。

做到上面的內容,還需要一種機制定期更新數據庫中的大量公司的信息,當然這是后話。當然,這兩步中都面臨一個問題——驗證碼。數以千萬計的公司,如果使用人肉打碼的話,效率和成本上肯定都是無法承受的,所以,相信天眼查內部還會有一位以上圖像識別方面的大牛,畢竟上面出現的網站中有些驗證碼的識別還是非常困難的。

json 遍歷 java,天眼查這類公司是通過什么手段獲取公司電話的