色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

如何用python爬取知網論文數據

錢衛國2年前20瀏覽0評論

如何用python爬取知網論文數據?

授人以魚不如授人以漁,我介紹一下用Python自動化下載我想要的論文參考文獻格式的方法。其用到的方法和工具同從知網爬取論文數據類似,你可以做個參考。

工具:selenium瀏覽器: Chrome引用的庫:

為了將每個下載到的文件都能對應正確的文件名,用了多線程來監聽下載目錄文件夾,用watchdog一個開源庫來監聽下載目錄文件夾,當該文件夾中出現新的文件時,程序自動將該文件進行重命名。

軟件從一個txt文件中讀取出需要下載的文件名稱,然后進行自動化下載。從txt中讀取文件名稱時,用到了正則表達式。

需要下載的文獻在txt中

打開瀏覽器

打開瀏覽器后,需要獲取到頁面的相應操作控件,需要獲取輸入框和搜索按鈕,selenium提供了find_element_by_id函數,可以在界面中找到控件的id即可

同理找到搜索按鈕的id,然后在輸入框中填入需要搜索的文章,觸發按鈕的click事件。

按照上述思路進行界面自動化操作,進入到想要的下載鏈接按鈕處

現在需要獲取到該鏈接,即圖中的href鏈接既是需要下載的內容鏈接

事實上,下載按鈕有相應的屬性值,只需要通過get_attribute函數獲取即可。

以上既是自動化下載文獻引用格式的一個過程。爬取知網論文思路類似,完全可以通過Selenium來實現。

java 正則驗證url,如何用python爬取知網論文數據