Python是一種優秀的編程語言,具有很多優秀的特性。其中,文本打標簽是Python的一個特色之一。這個特性可以方便地為文本進行分類打標簽。以下是一個簡單的文本打標簽的例子:
# 導入標簽庫 import nltk # 分詞器,用于將文本分為單個詞語 tokenizer = nltk.tokenize.RegexpTokenizer(r'\w+') # 載入停用詞表 stopwords = set(nltk.corpus.stopwords.words('english')) # 定義標簽函數 def tag_text(text): words = tokenizer.tokenize(text.lower()) words = [w for w in words if not w in stopwords] tags = nltk.pos_tag(words) return [word + '/' + tag for word, tag in tags] # 測試文本 text = "Python is a great programming language for data analysis." # 打標簽 tags = tag_text(text) # 輸出結果 print(tags)
上面的代碼中,我們首先導入了nltk庫,并定義了一個分詞器,用于將文本分為單個詞語。然后,我們載入了英語停用詞表,并定義了一個標簽函數,用于為文本打標簽。最后,我們測試了一個文本,將其打上了標簽。輸出結果如下:
['python/NN', 'great/JJ', 'programming/NN', 'language/NN', 'data/NNS', 'analysis/NN']
從結果可以看出,我們將文本分為了單個詞語,并對每個詞語打上了標簽。這些標簽表示了每個詞語的詞性。這個特性在文本分類和信息檢索中非常有用。
上一篇vue compont
下一篇python 文檔重復度