Python中的詞袋(Bag of Words)是一種自然語(yǔ)言處理的基本技術(shù),用于將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值向量表示,方便進(jìn)行機(jī)器學(xué)習(xí)和文本分類(lèi)。在詞袋模型中,一個(gè)文本被表示為一個(gè)向量,其中每個(gè)維度對(duì)應(yīng)于語(yǔ)料庫(kù)中的一個(gè)詞匯,向量的值表示該詞匯在文本中出現(xiàn)的次數(shù)或其他權(quán)重值。
例子: import numpy as np from sklearn.feature_extraction.text import CountVectorizer texts = ['Python 是一門(mén)非常流行的編程語(yǔ)言', '人工智能 是 未來(lái) 的 發(fā)展 方向', 'Python 在 機(jī)器學(xué)習(xí) 中 得到 廣泛 的 應(yīng)用'] vectorizer = CountVectorizer() X = vectorizer.fit_transform(texts) print(X.toarray())
在上面的例子中,我們使用了scikit-learn庫(kù)中的CountVectorizer函數(shù)來(lái)將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值向量。打印輸出的X矩陣即為詞袋模型中的向量表示,每行表示一個(gè)文本,每列表示一個(gè)詞匯,矩陣的值表示該詞匯在文本中出現(xiàn)的次數(shù)。例如,第一行表示“Python”在第一個(gè)文本中出現(xiàn)了1次,“流行”的出現(xiàn)次數(shù)為1,“編程語(yǔ)言”的出現(xiàn)次數(shù)為1。
詞袋模型是一個(gè)簡(jiǎn)單有效的文本表示方法,但也存在一些缺點(diǎn)。首先,它將文本數(shù)據(jù)看作獨(dú)立無(wú)關(guān)的,忽略了單詞之間的順序和語(yǔ)義關(guān)系,因此可能導(dǎo)致信息損失。其次,由于詞匯量往往巨大,使得向量維度也非常龐大,導(dǎo)致計(jì)算和存儲(chǔ)成本較高。