Python是一種非常流行的編程語言,它在數據挖掘和自然語言處理領域具有很強的應用性。本文將介紹如何使用Python提取文章中的機構名。
import nltk # 下載nltk的corpora和punkt數據包 nltk.download('punkt') nltk.download('averaged_perceptron_tagger') # 獲取文章內容 article = "近日,有一項新的研究發現,中國科學家成功研制出了一種新型藥物,可以有效地治療新型冠狀病毒。該藥物將被用于醫療機構的臨床試驗。" # 分詞 tokens = nltk.word_tokenize(article) # 詞性標注 tagged = nltk.pos_tag(tokens) # 抽取機構名 entities = nltk.chunk.ne_chunk(tagged) # 打印機構名 for entity in entities: if hasattr(entity, 'label') and entity.label() == 'ORGANIZATION': print(entity)
以上是Python代碼的完整實現過程。首先,我們需要下載nltk的corpora和punkt數據包,以便分詞和詞性標注。隨后,我們獲取文章內容并進行分詞和詞性標注。最后,我們使用nltk中的chunk函數抽取文章中的機構名,并打印出來。
需要注意的是,在本例中機構名的標注類型是"ORGANIZATION",不同類型的實體在nltk中有不同的標注。同時,我們也需要準備相應的語料庫用于訓練模型。
上一篇html形狀代碼
下一篇html常用代碼搜索引擎