自然語言處理有預訓練好的模型么

java

洪振霞2年前18瀏覽0評論

自然語言處理有預訓練好的模型么？

非科班出身，自學擼出中文分詞庫HanLP，在GitHub標星1.5萬，成為最受歡迎的自然語言處理項目。他將學習經(jīng)驗總結(jié)成書《自然語言處理入門》，幫助小白快速入門NLP。

針對題主的提問，HanLP自然語言處理類庫的開發(fā)者何晗的經(jīng)驗很值得借鑒。

截至 2019 年 11月初，HanLP項目在 GitHub Star 數(shù)達到了 15.6 K，超過了賓夕法尼亞大學的 NLTK、斯坦福大學的 CoreNLP。

貼上GitHub地址：https://github.com/hankcs/HanLP

何晗在開發(fā)這款 NLP 工具包時，還是上海外國語大學一名日語專業(yè)的大二學生，HanLP項目脫胎他大學時接的一份兼職，何晗也因緣從一個非科班專業(yè)的小白逐步成長為NLP領(lǐng)域的專家。如今，正在攻讀CS博士的他（研究方向：句法分析、語義分析與問答系統(tǒng)），結(jié)合自己的學習歷程和HanLP的開發(fā)經(jīng)驗創(chuàng)作出版了《自然語言處理入門》一書，得到了周明、劉群、王斌等業(yè)內(nèi)頂級 NLP 專家的推薦。

從著手開發(fā)HanLP，到HanLP達到工業(yè)使用的水準，何晗對自學NLP有深刻的見解。如果用一句話來總結(jié)，那就是：自頂而下，從工程去切入，由應(yīng)用層往下面的基礎(chǔ)層拓展，遞歸補充理論知識，才能事半功倍。以下入門NLP的建議，皆來自于何晗的經(jīng)驗，分享給像題主這樣的初學者，希望能對大家有所啟發(fā)。

一、初學者，請避開自學NLP的常見誤區(qū)有的初學者排斥基礎(chǔ)理論——認為學校教的都是沒用的，公司里都用不到；有的初學者對基礎(chǔ)理論敬而遠之——認為理論太高深了，自己基礎(chǔ)不好，學了也白學；有的初學者，特別是已經(jīng)工作的程序員，基本方向正確但學習路徑錯誤，比較容易走極端：在工作很忙的情況下，只是抱著經(jīng)典書籍苦啃，直到筋疲力盡項目也毫無進展，從而喪失了學習NLP的興趣；或者，俗稱調(diào)庫小能手，跟風潮流，缺少理論基礎(chǔ)，缺乏獨立思考能力（比如，認為深度學習最牛，其他的基礎(chǔ)理論都是垃圾；認為CNN/RNN/BERT會調(diào)參就行了）。

而實際上，自然語言處理是計算機科學、人工智能和語言學學科的交集，這三方面的學科知識都是需要儲備的，基礎(chǔ)理論的學習必不可少。但很多初學者都是在工作之后才入坑NLP，既難以靜下心來啃書啃課，又缺少很好的老師傳授知識經(jīng)驗。所以，有效可行的入門方式就是從工程切入，遵循這樣的邏輯：延遲加載，只在使用的時候才去加載必要的資料：

你首先看到的是一個摸得著的實際問題，為了解決該問題才去接觸一個具體的方案；為了理解這個方案，才會引入必要的背景知識；為了實現(xiàn)這個方案，才會引入相關(guān)細節(jié)；為了克服這個方案的問題，才會過渡到新的方案。二、想快速入門NLP，邊學邊做療效好

何晗入門NLP，讀過的經(jīng)典書有：《統(tǒng)計自然語言處理》（宗成慶著）（對應(yīng)語言學知識）、《統(tǒng)計學習方法》（李航著）（對應(yīng)人工智能知識），《挑戰(zhàn)程序設(shè)計競賽》（秋葉拓哉、鹽田陽一、北川宜稔著）（對應(yīng)計算機算法知識）。

不過，在看經(jīng)典書籍的過程中，他發(fā)現(xiàn)，學習自然語言處理并不需要完全把這幾本書看透，最好是可以邊看書邊做項目。這些書都是非常牛的好書，然而可惜的是，看完書中的章節(jié)，不知該如何應(yīng)用其中的知識點，即使實現(xiàn)了文章中提到的模型，也很難直接將其運用于工程項目。

想必很多初學者都面臨類似的學習困惑。為了解決這個問題，何晗動手寫了《自然語言處理入門》，目的就是希望學習者看完一章后，便可以將知識點直接用于項目，適合NLP初學者入門并快速布置到生產(chǎn)環(huán)境中。成效快，痛苦小，疑問少。

何晗在《自然語言處理入門》一書中，以自己的HanLP開源項目為案例，代碼對照公式講解每一個算法每一個模型，讓入門者帶著工程思維理解NLP的知識要點，試圖在目前市面上艱深晦澀的教科書和簡單的入門書之間作出平衡。

《自然語言處理入門》帶領(lǐng)學習者從基本概念入手。逐步介紹中文分詞、詞性標注、命名實體識別、信息抽取、文本聚類、文本分類、句法分析這幾個熱門問題的算法原理和工程實現(xiàn)。通過對多種算法的講解和實現(xiàn)，比較各自的優(yōu)缺點和適用場景。這些實現(xiàn)并非教學專用，而是生產(chǎn)級別的成熟代碼，可以直接用于實際項目。

在理解這些熱門問題的算法后，這本書會引導學習者根據(jù)自己的項目需求拓展新功能，最終達到理論和實踐上的同步入門。

何晗認為，NLP的學習路徑，應(yīng)該尊重一般人的認知規(guī)律，而不是學術(shù)上的綱目順序，以此為宗旨來編排圖書的內(nèi)容。因此，面向普通程序員，這本書內(nèi)容分為以下三大部分：

第一部分介紹一些字符串算法，讓普通程序員從算法的角度思考中文信息處理。

第二部分由易到難地講解一些常用的機器學習模型，讓算法工程師晉級為機器學習工程師。由中文分詞貫穿始終，構(gòu)成一種探索式的遞進學習。這些模型也并非局限于中文分詞，會在第三部分應(yīng)用到更多的自然語言處理問題上去。

第三部分新增了許多與文本處理緊密相關(guān)的算法，讓機器學習工程師進化到自然語言處理工程師。特別地，最后一章介紹了當前流行的深度學習方法，起到擴展視野、承上啟下的作用。學習者可根據(jù)自身情況，靈活跳過部分章節(jié)。

何晗在自學過程中走過不少彎路，深知數(shù)學語言的艱深晦澀，并且痛恨羅列公式故作高深的文章，所以他在書中只保留了必不可少的公式和推導，并且公式與代碼相互印證。配套代碼由Java和Python雙語言寫成，與GitHub上最新代碼同步更新，所以你只要具備基本的編程經(jīng)驗，就可以跟隨書本零起點入門。

此外，何晗還總結(jié)出一份最為詳盡的NLP+ML“雙生樹”思維導圖，導圖中的關(guān)聯(lián)知識點不僅涵蓋NLP領(lǐng)域的核心知識，甚至涉及許多前沿研究和應(yīng)用，印刷尺寸寬60cm，高74cm，隨書附贈供學習者參考。

三、進階NLP的學習資料和工具推薦推薦讀這些經(jīng)典書籍：多讀論文，推薦用Google Scholar和Papers檢索：克服語言障礙，推薦用歐路詞典：追蹤前沿動態(tài)，推薦NLP-progress，在各項NLP任務(wù)上的排行榜

網(wǎng)址：https://nlpprogress.com/

一個中肯的建議：NLP沒有通用的解法，算法不夠，語料來補算法不是萬能的。(想想：一兩個百分點對實際業(yè)務(wù)有多少幫助，又增加了多少成本？）不要完全相信論文。（a. 不要相信不公開源代碼的論文; b. 不要相信公開源代碼但數(shù)據(jù)預處理作假的論文; c. 即使能跑出作者宣稱的分數(shù)，請考慮：模型是否能泛化到你的行業(yè)領(lǐng)域? 又增加了多少成本?）語料極其重要。(a. 語料幾乎可以把準確率提升到你期望的任何水準，只要數(shù)量質(zhì)量足夠; b. 目前通用語料幾乎都是新聞，誰能標注出行業(yè)語料，誰就是大王; c. 深度學習時代，無標注的純文本語料也大有用場; d. 軟件工程2.0：用數(shù)據(jù)編程。）

java寬,自然語言處理有預訓練好的模型么

上一篇有什么軟件可以制作習題型的交互式微課

下一篇gb和gc的區(qū)別

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導航

網(wǎng)站導航

網(wǎng)站分類

自然語言處理有預訓練好的模型么

色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

網(wǎng)站導航

網(wǎng)站導航

網(wǎng)站分類

自然語言處理有預訓練好的模型么

相關(guān)文章