Python 詞云是一種用于展示文本數(shù)據(jù)中高頻率詞匯的可視化工具。通過將文本數(shù)據(jù)中的單詞按照其出現(xiàn)頻率大小生成的詞云,可以直觀展示文本數(shù)據(jù)中的關(guān)鍵詞,更好地了解文本數(shù)據(jù)的含義。而通過指定詞云的形狀,則可以使得詞云更具有可視化效果和藝術(shù)感。
Python 詞云生成工具中,常常使用 wordcloud 包。在該工具包中,可以通過 mask 參數(shù)指定詞云的形狀,具體的代碼如下所示:
import numpy as np import matplotlib.pyplot as plt from PIL import Image from wordcloud import WordCloud, STOPWORDS # 加載圖片 mask = np.array(Image.open("image.jpg")) # 加載文本 text = open("content.txt", "r", encoding="utf-8").read() # 刪除停用詞 stopwords = set(STOPWORDS) stopwords.update(["的", "等"]) # 生成詞云 wordcloud = WordCloud(background_color="white", font_path="msyh.ttf",mask=mask, stopwords=stopwords).generate(text) # 保存詞云圖像 wordcloud.to_file("wordcloud.png") # 顯示詞云圖像 plt.imshow(wordcloud, interpolation='bilinear') plt.axis("off") plt.show()
在上面的代碼中,我們使用 np.array 函數(shù)加載了一個名為 image.jpg 的圖像,該圖像作為了詞云的形狀,并通過 WordCloud 的 mask 參數(shù)指定。此外,我們還通過 stopwords 參數(shù)指定了需要刪除的停用詞,添加了字體樣式等設(shè)置,最終生成了一個類似于圖一的詞云圖像。
總的來說,通過使用 Python 詞云生成工具的 mask 參數(shù),可以生成具有自定義形狀的詞云,并更好地展示文本數(shù)據(jù)中的關(guān)鍵詞匯。感興趣的讀者可以自行探索更多有趣的詞云形狀和使用場景。