色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

python 提取機構名

榮姿康2年前10瀏覽0評論

Python是一種非常流行的編程語言,它在數據挖掘和自然語言處理領域具有很強的應用性。本文將介紹如何使用Python提取文章中的機構名。

import nltk
# 下載nltk的corpora和punkt數據包
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
# 獲取文章內容
article = "近日,有一項新的研究發現,中國科學家成功研制出了一種新型藥物,可以有效地治療新型冠狀病毒。該藥物將被用于醫療機構的臨床試驗。"
# 分詞
tokens = nltk.word_tokenize(article)
# 詞性標注
tagged = nltk.pos_tag(tokens)
# 抽取機構名
entities = nltk.chunk.ne_chunk(tagged)
# 打印機構名
for entity in entities:
if hasattr(entity, 'label') and entity.label() == 'ORGANIZATION':
print(entity)

以上是Python代碼的完整實現過程。首先,我們需要下載nltk的corpora和punkt數據包,以便分詞和詞性標注。隨后,我們獲取文章內容并進行分詞和詞性標注。最后,我們使用nltk中的chunk函數抽取文章中的機構名,并打印出來。

需要注意的是,在本例中機構名的標注類型是"ORGANIZATION",不同類型的實體在nltk中有不同的標注。同時,我們也需要準備相應的語料庫用于訓練模型。