色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

tf算法?

夏志豪2年前11瀏覽0評論

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

x_train = ['TF-IDF 主要 思想 是','算法 一個 重要 特點 可以 脫離 語料庫 背景',

'如果 一個 網頁 被 很多 其他 網頁 鏈接 說明 網頁 重要']

x_test=['原始 文本 進行 標記','主要 思想']

#該類會將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在i類文本下的詞頻

vectorizer = CountVectorizer(max_features=10)

#該類會統計每個詞語的tf-idf權值

tf_idf_transformer = TfidfTransformer()

#將文本轉為詞頻矩陣并計算tf-idf

tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))

#將tf-idf矩陣抽取出來,元素a[i][j]表示j詞在i類文本中的tf-idf權重

x_train_weight = tf_idf.toarray()

#對測試集進行tf-idf權重計算

tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))

x_test_weight = tf_idf.toarray() # 測試集TF-IDF權重矩陣

print('輸出x_train文本向量:')

print(x_train_weight)