色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

自然語言處理有預訓練好的模型么

洪振霞2年前18瀏覽0評論

自然語言處理有預訓練好的模型么?

非科班出身,自學擼出中文分詞庫HanLP,在GitHub標星1.5萬,成為最受歡迎的自然語言處理項目。他將學習經(jīng)驗總結(jié)成書《自然語言處理入門》,幫助小白快速入門NLP。

針對題主的提問,HanLP自然語言處理類庫的開發(fā)者何晗的經(jīng)驗很值得借鑒。

截至 2019 年 11月初,HanLP項目在 GitHub Star 數(shù)達到了 15.6 K,超過了賓夕法尼亞大學的 NLTK、斯坦福大學的 CoreNLP。

貼上GitHub地址:https://github.com/hankcs/HanLP

何晗在開發(fā)這款 NLP 工具包時,還是上海外國語大學一名日語專業(yè)的大二學生,HanLP項目脫胎他大學時接的一份兼職,何晗也因緣從一個非科班專業(yè)的小白逐步成長為NLP領(lǐng)域的專家。如今,正在攻讀CS博士的他(研究方向:句法分析、語義分析與問答系統(tǒng)),結(jié)合自己的學習歷程和HanLP的開發(fā)經(jīng)驗創(chuàng)作出版了《自然語言處理入門》一書,得到了周明、劉群、王斌等業(yè)內(nèi)頂級 NLP 專家的推薦。

從著手開發(fā)HanLP,到HanLP達到工業(yè)使用的水準,何晗對自學NLP有深刻的見解。如果用一句話來總結(jié),那就是:自頂而下,從工程去切入,由應(yīng)用層往下面的基礎(chǔ)層拓展,遞歸補充理論知識,才能事半功倍。以下入門NLP的建議,皆來自于何晗的經(jīng)驗,分享給像題主這樣的初學者,希望能對大家有所啟發(fā)。

一、初學者,請避開自學NLP的常見誤區(qū)有的初學者排斥基礎(chǔ)理論——認為學校教的都是沒用的,公司里都用不到;有的初學者對基礎(chǔ)理論敬而遠之——認為理論太高深了,自己基礎(chǔ)不好,學了也白學;有的初學者,特別是已經(jīng)工作的程序員,基本方向正確但學習路徑錯誤,比較容易走極端:在工作很忙的情況下,只是抱著經(jīng)典書籍苦啃,直到筋疲力盡項目也毫無進展,從而喪失了學習NLP的興趣;或者,俗稱調(diào)庫小能手,跟風潮流,缺少理論基礎(chǔ),缺乏獨立思考能力(比如,認為深度學習最牛,其他的基礎(chǔ)理論都是垃圾;認為CNN/RNN/BERT會調(diào)參就行了)。

而實際上,自然語言處理是計算機科學、人工智能和語言學學科的交集,這三方面的學科知識都是需要儲備的,基礎(chǔ)理論的學習必不可少。但很多初學者都是在工作之后才入坑NLP,既難以靜下心來啃書啃課,又缺少很好的老師傳授知識經(jīng)驗。所以,有效可行的入門方式就是從工程切入,遵循這樣的邏輯:延遲加載,只在使用的時候才去加載必要的資料:

你首先看到的是一個摸得著的實際問題,為了解決該問題才去接觸一個具體的方案;為了理解這個方案,才會引入必要的背景知識;為了實現(xiàn)這個方案,才會引入相關(guān)細節(jié);為了克服這個方案的問題,才會過渡到新的方案。二、想快速入門NLP,邊學邊做療效好

何晗入門NLP,讀過的經(jīng)典書有:《統(tǒng)計自然語言處理》(宗成慶 著)(對應(yīng)語言學知識)、《統(tǒng)計學習方法》(李航 著)(對應(yīng)人工智能知識),《挑戰(zhàn)程序設(shè)計競賽》(秋葉拓哉、鹽田陽一、北川宜稔 著)(對應(yīng)計算機算法知識)。

不過,在看經(jīng)典書籍的過程中,他發(fā)現(xiàn),學習自然語言處理并不需要完全把這幾本書看透,最好是可以邊看書邊做項目。這些書都是非常牛的好書,然而可惜的是,看完書中的章節(jié),不知該如何應(yīng)用其中的知識點,即使實現(xiàn)了文章中提到的模型,也很難直接將其運用于工程項目。

想必很多初學者都面臨類似的學習困惑。為了解決這個問題,何晗動手寫了《自然語言處理入門》,目的就是希望學習者看完一章后,便可以將知識點直接用于項目,適合NLP初學者入門并快速布置到生產(chǎn)環(huán)境中。成效快,痛苦小,疑問少。

何晗在《自然語言處理入門》一書中,以自己的HanLP開源項目為案例,代碼對照公式講解每一個算法每一個模型,讓入門者帶著工程思維理解NLP的知識要點,試圖在目前市面上艱深晦澀的教科書和簡單的入門書之間作出平衡。

《自然語言處理入門》帶領(lǐng)學習者從基本概念入手。逐步介紹中文分詞、詞性標注、命名實體識別、信息抽取、文本聚類、文本分類、句法分析這幾個熱門問題的算法原理和工程實現(xiàn)。通過對多種算法的講解和實現(xiàn),比較各自的優(yōu)缺點和適用場景。這些實現(xiàn)并非教學專用,而是生產(chǎn)級別的成熟代碼,可以直接用于實際項目。

在理解這些熱門問題的算法后,這本書會引導學習者根據(jù)自己的項目需求拓展新功能,最終達到理論和實踐上的同步入門。

何晗認為,NLP的學習路徑,應(yīng)該尊重一般人的認知規(guī)律,而不是學術(shù)上的綱目順序,以此為宗旨來編排圖書的內(nèi)容。因此,面向普通程序員,這本書內(nèi)容分為以下三大部分:

第一部分介紹一些字符串算法,讓普通程序員從算法的角度思考中文信息處理。

第二部分由易到難地講解一些常用的機器學習模型,讓算法工程師晉級為機器學習工程師。由中文分詞貫穿始終,構(gòu)成一種探索式的遞進學習。這些模型也并非局限于中文分詞,會在第三部分應(yīng)用到更多的自然語言處理問題上去。

第三部分新增了許多與文本處理緊密相關(guān)的算法,讓機器學習工程師進化到自然語言處理工程師。特別地,最后一章介紹了當前流行的深度學習方法,起到擴展視野、承上啟下的作用。學習者可根據(jù)自身情況,靈活跳過部分章節(jié)。

何晗在自學過程中走過不少彎路,深知數(shù)學語言的艱深晦澀,并且痛恨羅列公式故作高深的文章,所以他在書中只保留了必不可少的公式和推導,并且公式與代碼相互印證。配套代碼由Java和Python雙語言寫成,與GitHub上最新代碼同步更新,所以你只要具備基本的編程經(jīng)驗,就可以跟隨書本零起點入門。

此外,何晗還總結(jié)出一份最為詳盡的NLP+ML“雙生樹”思維導圖,導圖中的關(guān)聯(lián)知識點不僅涵蓋NLP領(lǐng)域的核心知識,甚至涉及許多前沿研究和應(yīng)用,印刷尺寸寬60cm,高74cm,隨書附贈供學習者參考。

三、進階NLP的學習資料和工具推薦推薦讀這些經(jīng)典書籍:多讀論文,推薦用Google Scholar和Papers檢索:克服語言障礙,推薦用歐路詞典:追蹤前沿動態(tài),推薦NLP-progress,在各項NLP任務(wù)上的排行榜

網(wǎng)址:https://nlpprogress.com/

一個中肯的建議:NLP沒有通用的解法,算法不夠,語料來補算法不是萬能的。(想想:一兩個百分點對實際業(yè)務(wù)有多少幫助,又增加了多少成本?)不要完全相信論文。(a. 不要相信不公開源代碼的論文; b. 不要相信公開源代碼但數(shù)據(jù)預處理作假的論文; c. 即使能跑出作者宣稱的分數(shù),請考慮:模型是否能泛化到你的行業(yè)領(lǐng)域? 又增加了多少成本?)語料極其重要。(a. 語料幾乎可以把準確率提升到你期望的任何水準,只要數(shù)量質(zhì)量足夠; b. 目前通用語料幾乎都是新聞,誰能標注出行業(yè)語料,誰就是大王; c. 深度學習時代,無標注的純文本語料也大有用場; d. 軟件工程2.0:用數(shù)據(jù)編程。)

java寬,自然語言處理有預訓練好的模型么