目前,NLP的主要研究范圍與方向有以下幾個方面:
1、信息檢索
2、機器翻譯
3、文檔分類
4、問答系統
5、信息過濾
6、自動文摘
7、信息抽取
8、文本挖掘
9、輿情分析
10、機器寫作
11、文本朗讀
12、語音合成
13、語音識別
14、自動分詞
15、詞性標注
16、句法分析
17、自然語言生成
18、信息抽取
另外,自然語言處理的數據為文本數據,主要有以下5種類型的處理:
1、分詞:
我們一般處理的自由文本有中文、英文等,詞為文本的基本單位,然而分詞當然是NLP中最重要的步驟。分詞算法分為詞典方法和統計方法,其中基于詞典和人工規則的方法是按照一定的策略將待分析的詞與詞典中的詞條進行匹配(包括正向匹配、逆向匹配和最大匹配)。統計方法是基本字符串在語料庫中出現的統計頻率,典型的算法有HMM、CRF等,其中CRF相比HMM有更弱的上下文無相關性假設,理論上效果更好一些。
英文以空格為分割符,因此不需要進行分詞的操作(片面看法,特殊情況仍然需要分詞操作),例如一些復合詞也需要識別。
2、詞性標注
對于詞性標注,首先需要定義詞性的類別:如名詞、動詞、形容詞、連詞、副詞、標點符號等等。詞性標注是語音識別、句法分析、信息抽取技術的基礎技術之一,詞性標注是標注問題,可以采用最大熵、HMM、CRF等具體算法進行模型的訓練。在自動問答系統中,為了提高用戶問題匹配后端知識庫的召回率,對一些關鍵詞進行過濾,包括連詞、副詞對于全文檢索系統理論上可以通過對用戶輸入的查詢條件進行詞性過濾,但由于全文檢索是基于詞袋的機械匹配,并采用IDF作為特征值之一,因此詞性標注的效果不大。
3、句法分析
句法分析的目的是確定句子的句法結構,主謂賓、動賓、定中、動補等。在問答系統和信息檢索領域有重要作用。
4、命名實體識別
命名實體識別是定位句子中出現的人名、地名、機構名、專有名詞等。命名實體屬于標注問題,因此可以采用HMM、CRF等進行模型的訓練。基于統計的命名實體需要基于分詞、詞性標注等技術。實體命名定義了五大類型:設施(FAC)、地理政治實體(GPE)、位值(LOC)、人物(PER)。在實際應用中,可以根據自己的業務需求,定義實體類別,并進行模型訓練。
5、實體關系抽取
實體關系抽取是自動識別非結構化文檔中兩個實體之間的關聯關系,屬于信息抽取領域的基礎知識之一。近年來,搜索領域流行的知識圖譜技術是構建實體關系。實體關系抽取有多種方式,包括規則匹配、有監督學習、無監督學習。其中有監督學習需要預先定義實體關系類別,通常將問題建模為分類問題。有監督學習需要預先人工標注語料庫。