色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

python 文本質心

錢良釵1年前7瀏覽0評論

Python是一種非常流行的編程語言,它具有簡單易學、運行速度快等特點。在Python中,文本質心是一個重要的概念,文本質心可以幫助我們計算文本中各個詞語的重要性。

# Python中的文本質心計算
import math
# 定義文本質心函數
def compute_tf(word_dict, words):
tf_dict = {}
words_count = len(words)
for word, count in word_dict.items():
tf_dict[word] = count / float(words_count)
return tf_dict
# 定義文本質心函數
def compute_idf(doc_list):
import math
idf_dict = {}
n = len(doc_list)
# 統計包含這個詞語的文檔數量
idf_dict = dict.fromkeys(doc_list[0].keys(), 0)
for doc in doc_list:
for word, val in doc.items():
if val >0:
idf_dict[word] += 1
# 計算文檔集合中,每個詞語的IDF值
for word, val in idf_dict.items():
idf_dict[word] = math.log(n / float(val))
return idf_dict
# 定義文本質心函數
def compute_tfidf(tf, idfs):
tfidf = {}
for word, val in tf.items():
tfidf[word] = val * idfs[word]
return tfidf
# 定義文本質心
def compute_text_centroid(text_list):
# 構建單詞字典
word_dict = {}
for text in text_list:
for word in text:
if word not in word_dict:
word_dict[word] = 0
word_dict[word] += 1
# 計算TF值
tf = compute_tf(word_dict, text_list)
# 計算IDF值
idfs = compute_idf([word_dict])
# 計算TF-IDF值
tfidf = compute_tfidf(tf, idfs)
# 計算文本質心
text_centroid = {}
for word, val in tfidf.items():
if val >0:
text_centroid[word] = val
return text_centroid

通過上述代碼,我們可以很方便的計算文本質心。我們首先構建單詞字典,然后計算每個單詞的TF-IDF值,并將其保存在文本質心中。通過計算文本質心,我們可以快速計算出每個單詞的重要性,有助于我們更好的理解文本的含義。