Python是一種優秀的編程語言,也是數據分析領域必備的工具之一。Python語言的優美簡潔,使得使用它進行數據分析變得輕而易舉。本文將介紹如何使用Python統計文本中的關鍵詞。
# 導入Python的文本處理庫nltk import nltk from nltk.tokenize import word_tokenize from collections import Counter # 讀取文本文件 with open('text.txt', 'r') as f: text = f.read() # 利用nltk進行關鍵詞提取 tokens = word_tokenize(text) keywords = [word for word in tokens if word.isalnum()] # 用Counter對關鍵詞進行頻率統計 count = Counter(keywords) # 輸出前10個出現頻率最高的關鍵詞 for word, freq in count.most_common(10): print(word, freq)
在上面的代碼中,首先導入了Python的文本處理庫nltk。然后通過指定文本文件路徑讀取文件,再利用nltk中提供的文本分詞功能將文本拆分成單詞(tokens)。最后通過循環遍歷每個單詞并使用Counter進行頻率統計,最終輸出出現頻率最高的前10個關鍵詞。
通過上述代碼,我們可以輕松地對文本中出現頻率較高的關鍵詞進行統計。這對于進行文本分析和信息提取非常有用。