色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

python 統計關鍵詞

林玟書2年前10瀏覽0評論

Python是一種優秀的編程語言,也是數據分析領域必備的工具之一。Python語言的優美簡潔,使得使用它進行數據分析變得輕而易舉。本文將介紹如何使用Python統計文本中的關鍵詞。

# 導入Python的文本處理庫nltk
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
# 讀取文本文件
with open('text.txt', 'r') as f:
text = f.read()
# 利用nltk進行關鍵詞提取
tokens = word_tokenize(text)
keywords = [word for word in tokens if word.isalnum()]
# 用Counter對關鍵詞進行頻率統計
count = Counter(keywords)
# 輸出前10個出現頻率最高的關鍵詞
for word, freq in count.most_common(10):
print(word, freq)

在上面的代碼中,首先導入了Python的文本處理庫nltk。然后通過指定文本文件路徑讀取文件,再利用nltk中提供的文本分詞功能將文本拆分成單詞(tokens)。最后通過循環遍歷每個單詞并使用Counter進行頻率統計,最終輸出出現頻率最高的前10個關鍵詞。

通過上述代碼,我們可以輕松地對文本中出現頻率較高的關鍵詞進行統計。這對于進行文本分析和信息提取非常有用。