文本詞通量是指在一段文本中,每個單詞的出現頻率。對于文本分析來說,文本詞通量是一個非常重要的指標。Python 是一種非常適合文本分析的編程語言,其中就包括文本詞通量的統計。
import re
from collections import Counter
text = "Python 是一種非常適合文本分析的編程語言。Python 具有很多強大的文本處理庫,比如 NLTK、spaCy 等等。"
# 把文本中所有非字母的字符都替換為空格
clean_text = re.sub(r'[^a-zA-Z]', ' ', text)
# 把單詞都轉換成小寫
clean_text = clean_text.lower()
# 把文本按照空格分割成一個單詞列表
words = clean_text.split()
# 統計每個單詞的出現頻率
word_count = Counter(words)
# 輸出結果
for word, count in word_count.items():
print(word, count)
上面的代碼演示了如何統計一個文本的詞通量。它的原理比較簡單,就是先把文本中所有的非字母的字符都替換為空格,再把單詞都轉換成小寫,最后按照空格分割成一個單詞列表。然后使用Python 中的 Counter 類來統計每個單詞的出現頻率。最后輸出結果。
Python 除了能夠統計文本的詞通量,還能夠進行詞云的生成、情感分析等等。Python 的文本分析功能非常強大,可以幫助我們更好地理解文本中所包含的信息。