Python 是一種非常強大的編程語言,可以用于許多領域,包括數據分析和文本處理。在本篇文章中,我們將介紹如何使用 Python 統計詞頻率。
# 導入所需庫 import collections # 打開要處理的文本文件 with open('text.txt', 'r') as f: text = f.read() # 將文本轉換為小寫,去除標點和數字 text = text.lower() text = ''.join(c for c in text if c.isalpha() or c.isspace()) words = text.split() # 統計詞頻率 word_counts = collections.Counter(words) print(word_counts)
上述代碼打開文本文件 'text.txt',將文本轉換為小寫,去除標點和數字,然后統計詞頻率并打印輸出。
最后得出的結果將是一個包含詞語和它們出現次數的字典:
{'this': 3, 'is': 2, 'an': 1, 'example': 1, 'of': 2, 'text': 1, 'for': 1, 'word': 1, 'frequency': 1, 'analysis': 1, 'python': 1, 'the': 2, 'most': 1, 'popular': 1, 'programming': 1, 'language': 1, 'today': 1}
通過這種方法,我們可以快速且準確地獲得一段文本中出現次數最多的詞語,從而進行文本分析。