Python 是現今廣泛使用的編程語言之一。其中,詞袋模型是自然語言處理領域中非常重要的技術。這篇文章將介紹 Python 中如何使用詞袋模型來建立基礎的文本分析。
# 導入必要的庫 from sklearn.feature_extraction.text import CountVectorizer # 定義文本數據 documents = ["This is the first document.", "This is the second document.", "And this is the third one.", "Is this the first document?"] # 創建詞袋向量 vectorizer = CountVectorizer() bag_of_words = vectorizer.fit_transform(documents) # 輸出單詞列表 print(vectorizer.get_feature_names()) # 輸出詞袋向量 print(bag_of_words.toarray())
上述代碼中,首先導入了必要的庫。接著,定義了一組文本數據,這里用了一個包含 4 個字符串的 List。然后,通過導入的 CountVectorizer 類創建了詞袋向量。最后,對詞袋向量進行了輸出。
運行上述代碼會先輸出所有單詞列表,然后輸出文本數據的所有詞袋向量。
總結來說,Python 的詞袋模型構建十分方便,并且可以很容易地進行一些簡單的特征工程。如果你正在進行自然語言處理編程的項目,那么 Python 是一種非常不錯的選擇。