如何用Python中的NLTK對中文進行分析和處理

如何用Python中的NLTK對中文進行分析和處理？

我感覺用nltk 處理中文是完全可用的。其重點在于中文分詞和文本表達的形式。

中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文本進行分詞然后再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。

中文分詞之后，文本就是一個由每個詞組成的長數組：[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻，用bigrams 把文本變成雙詞組的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

上一篇如何用PYTHON計算三角形面積

下一篇中亞第一大國哈薩克斯坦是如何去俄化的

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網站導航

網站導航

網站分類

如何用Python中的NLTK對中文進行分析和處理

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網站導航

網站導航

網站分類

如何用Python中的NLTK對中文進行分析和處理

相關文章