Python是一種流行的編程語言,也是數據科學、機器學習、人工智能和自然語言處理等領域中最重要的工具之一。Python的詞云效果是一種強大的可視化方式,可以讓你快速了解文本數據的高頻詞匯。
#導入必要的庫 import wordcloud import jieba import matplotlib.pyplot as plt #讀取文本數據 text = open('data.txt').read() #讀取停用詞 stopwords = open('stopwords.txt').read() #分詞 word_list = jieba.cut(text) #去除停用詞 result = [] for word in word_list: if word not in stopwords: result.append(word) #生成詞云 word_cloud = wordcloud.WordCloud(font_path='simhei.ttf',background_color='white').generate(' '.join(result)) #顯示詞云 plt.imshow(word_cloud) plt.axis('off') plt.show()
在代碼中,我們首先導入必要的庫,包括wordcloud、jieba和matplotlib。然后讀取文本數據和停用詞,并使用jieba庫對文本進行分詞。
接著,我們通過一個循環去除停用詞,并將所有非停用詞添加到一個數組中。最后,我們使用wordcloud庫生成詞云,并使用matplotlib庫將其顯示出來。
需要注意的是,我們指定了字體為simhei.ttf,這是一種中文宋體字體,可以確保詞云中的中文字符正確顯示。此外,我們還指定了背景顏色為白色,并關閉了坐標軸。
通過Python的詞云效果,我們可以快速了解文本數據中的高頻詞匯,這對于文本分析和可視化非常有用。