用python做中文命名實體識別的庫有哪些?
這里推薦一個
FoolNLTK
中文文字處理工具包
它有以下特征:
盡管不是最快的,但FoolNLTK可能是市場上最準確的開源中文分詞器根據BiLSTM模型進行訓練分詞,詞性標注,實體識別的高精度用戶定義的字典能夠自我訓練模型允許批量處理用法說明
對于參與者:
對于分詞分段,請指定一個參數以增加每次運行時分段的行數。
python -m fool [filename]用戶定義的字典
字典的格式如下:單詞的權重越高,單詞長度越長,單詞出現的可能性越大。單詞權重值應大于1。
要加載字典:
進口傻瓜fool.load_userdict(路徑)文本= [ “我在北京天安門看你難受香菇”,“我在北京曬太陽你在非洲看雪” ] 打印(fool.cut(文本))# [[ '我', '在', '北京' , '天安門', '看', '你', '難受', '香菇'], # [ '我', '在', '北京', '曬太陽', '你', '在',“非洲','看','雪']]刪除字典
fool.delete_userdict();POS標記
實體識別