在未來怎樣讓人工智能進一步造福人類?
2017年6月20日,零氪科技首席架構師王曉哲,在清華大學“天池醫療AI大賽”第一季肺部結節智能診斷 《醫學影像在腫瘤診療中的應用及智能診斷探索》發表演講,演講主題為《輔助醫者 普惠患者:人工智能技術在醫學領域的應用與前景》。以下為王曉哲的演講記錄。
演講從全局整體背景上介紹了人工智能技術與臨床醫學結合以后已經取得的成果,未來的發展前景和美好展望以及實際中碰到的一些核心挑戰。
一、人工智能、機器學習、深度學習概念
什么是“人工智能”、“機器學習”、“深度學習”?這三個概念現在的媒體經常會混為一談,使大家一頭霧水。如果我們回到歷史里追溯“人工智能”整體發展軌跡,就會很清晰的得到這三個術語的原本概念。
1. 人工智能概念
從40年代末到50年代初,由于計算機的發明和逐步使用,人們想象,如果有了強大的運算能力,是否可以產生一種智能的程序,從而逐漸替代一部分人的工作。這個想法掀起了“人工智能”的熱潮。
那時候,計算機的計算算力雖然比傳統人工有了很大提升,但依然很有限。在當時階段,實際上更多的是“人工”智能,最好的產品叫做“專家系統”。它是由大量的專家手動編制一系列規則,形成知識庫,然后由符號推理形式,闡述最后結果。這是符號學派的路徑。
這條路后來很快也難以為繼。由于機器是單純的接受方,不能主動做改變自己邏輯的事情,所有的事情必須由人類專家一條一條的以規則化的方式去做,非常僵硬。而它背后的基礎,謂詞邏輯又是一個非常剛性的框架,因此導致能表述的現實世界問題非常有限,更多的是一些玩具應用。符號學派的熱潮很快消退,到70年代幾乎無人提及。
2. 機器學習的概念
符號學派的失敗引出了新的想法,人們思考從另外一條路徑來做。從統計角度,可以把所有的現實問題都轉換成概率問題。因此,去尋找現實世界問題的解決方案就等價于尋找一個概率分布。基于這樣的思路,于是有了初步的“機器學習”概念闡述。因此,80年代 “機器學習”術語開始出現。
當時更多的是從傳統的統計方法開始實踐,應用最多的是樸素貝葉斯方法。其典型的應用就是垃圾郵件過濾,這是到目前為止仍最為簡單有效的一種過濾方式。于是終于產出了能夠實用化的一些產品。
但是,我們發現單純從統計方法出發,可能會產生另外一些問題,因為統計模型一般都是基于具體問題設計的參數化模型,我們仍然需要去手工建模,而這些建模工作就是一個非常耗費精力的過程。
3. 深度學習的概念
從2010年起,神經網絡的一個分支、即深層神經網絡這一類模型,終于有人找到了能很好地訓練它的方法,實現自動去做特征抽取、表達抽取的工作。從此,“深度學習”這個概念就開始火了。所謂“深度學習”僅僅是特指深層神經網絡的一個應用。
二、機器學習的典型問題范疇
機器學習分為有監督學習、無監督學習和表征學習。
1. 有監督學習
概念:樣本集里面的問題,需要通過人或者其他的方式給出一個標準的答案,模型所做的事情就是以后碰到相似原始數據的時候,能夠盡量的貼近標準答案,越接近標準答案,模型評估效果越好。
分類:分類最終的目標變量是A、B、C這樣的離散集合里具體一類。我們做肺部結節檢測,發現結節后,它到底是良性還是惡性?這是一個典型的二分類問題。
回歸:是指最后這個目標變量是一個連續變量。最簡單的回歸方法是線性回歸,表達力很有限。
案例:比如臨床上要分析血液里面的載脂蛋白和低密脂膽固醇這兩個指標之間的關聯性,那么就會套用一個回歸模型來建立這樣一個關系。
2. 無監督學習
概念:指標準答案不存在或者不易定義,我們希望通過一些更為高層、抽象的規則刻劃,讓機器自動去發掘原有數據中間的一些特別特征或結構。
聚類:是把原始的數據、樣本,按照某種特征分離成若干相似群體。根據基因測序結果或者根據生物芯片對于突變的分析結果,在分子分型和臨床表現角度,把患者按相似性進行劃分,分成一個個小的類別。這些不同的類別,分子分型和臨床表現上有很強的相似性,可以對這一類患者采取相似療法,以期獲得相似效果。
降維:是對于很復雜、很高維度、需要很多特征來表達的數據空間,尋找其內在的冗余性,然后把冗余的部分去除,變成一個比較低維度、好處理的形式。
案例:癲癇患者往往需要做腦電波監控。腦電信號在頭部采集,頭部會貼兩三百個電極,每個電極收集的信號都是完全獨立的,都是一個時序特征。所有信號全部采集在一起分析,未必能很好地預測癲癇患者的發病時間或癥狀強弱的特性。因此需要尋找所有這些電極中的冗余點在哪,是不是電極信號需要組合一下或者篩選出某些主導電極,更好地刻劃關聯性,更好地預測癲癇患者的發病情況?這是一個降維問題,要將原有兩三百個電極采集信號,轉換成只有十幾維的時序信號,這些信號與目標結果由最強關聯性的信號來做最后的模型。
3. 表征學習
概念:表征是指問題可以用不同形式來表述。有些表述形式很方便求解問題,而另一些表述形式不方便求解問題。
案例:分解質因數,如果用現有的數字體系,是一個非常難的問題,尤其是大數的分解。如果改變問題的表述方式,將數字的表示法更改,這個數字不再用固定底數冪加和的形式來表達,而是用一系列質數冪的乘積來表達,分解質因數就不是問題。因為原始表示法已經表達了最終要分解的形式。
表征學習有很多應用,在非醫療領域,如機器翻譯、圖像識別這些問題,都經常使用表征學習的方法,將圖像、文本或者聲音這些比較稀疏、高維度的信號,轉換成一個稠密、低維度的向量。基于這個向量,我們可以更好地去刻劃原有數據之間的相似性或內在結構,然后去更好地建模。
4. 總結
深度學習整套模型方法從根本上改變了原始問題、原始數據領域的表達形式,把原有紛繁復雜的數據結構轉換成一個更容易分類、更容易處理的數據形式,最后達到比較好的效果。
三、當前醫療領域深度學習應用熱點方向
當前宣傳的最火的就是深度學習。因為它的表征處理能力,可以很好的把很多現實問題轉換成可以處理的形式。深度學習擅長處理的就是高維度、稀疏的信號。圖像就是這些信號中一種有代表性的形式。醫學影像處理應用很明顯必然是一個熱點方向。除了醫學影像處理以外,臨床里邊還有很多其他問題域,比如時序信號處理、臨床數據的信息提取等等,這些雖為很好的問題域,但都不及圖像處理容易得到結果。
醫學影像處理典型的四大類問題是:影像分類、目標檢測、圖像分割和影像檢索等。都能對應到日常臨床應用里的一些痛點的、比較浪費人力的問題。
四、前沿研究成果
以下分享臨床問題領域把握比較到位、得到的結果也比較好的一些論文。因為都是針對醫學影像數據,采取的建模方法都是類似的,基本上是基于CNN做各種模型變換,最后得到結果。
1. 基于乳腺鉬靶影像的病變檢測
乳腺鉬靶是常見的乳腺癌早期篩查方法,它的診斷難度其實不算大。如果有一個模型能夠有效地檢查鉬靶影像中間異常密度區域,就可以很好地降低人工篩查的工作量。在這篇文章里,達到的結果接近人類專家的平均水平,這是一個非常了不起的結果。
2. 腦部核磁共振影像中的白質高信號灶分割
為什么關注白質高信號灶?因為一旦核磁共振上面發現腦白質里有異常信號表達的時候,很有可能說明,在未來的一段時間內患者容易發展出帕金森氏癥,所以它是預測帕金森氏癥的一個有力指標。這里最重要的是怎么能準確地分割出腦白質的高信號灶。這篇論文用的也是相對比較傳統的模型組合,最后得到的分割效果接近了人類專家的水平,也是一個不錯的結果。
3. 基于皮膚鏡照片的皮膚癌分類診斷
這是斯坦福做的之前引起較大影響的論文,結果已經達到了人類專家水平,甚至超過了大部分人類專家,接近了一些非常有經驗的專家。而它用的結構卻是非常傳統。
深度學習模型本身就是一種具有非常強表達力的模型,那么我們再去構建很復雜的網絡結構、增加很多參數的話,其實很可能會變成過擬合的狀態,反而無助于結果的一般化。所以,最重要的是我們如何能拿到足夠多的、有標注的、高質量的數據集。數據集的規模越大,數據質量越高,最后能達到的效果一定會越好。相比于機器學習領域中大家爭先恐后地去尋找新的網絡結構、新的激活函數、新的優化方法的趨勢,我們在臨床需求落地到具體場景時,更應該關注的是原始數據怎么取得,怎么能以比較低的成本拿到高質量的數據。因為只要解決了數據這一點,建模這一步上面,其實并不存在決定性門檻。
4. 基于數字病理切片的乳腺癌淋巴結轉移檢測
這一篇是Google Brain給出的,對高分辨率的數字病理切片,基于GoogleInception Net的網絡結構去做特征提取,最后進行分類,然后刻畫出來的乳腺癌細胞在組織上面的分布情況。它的檢測效果達到了人類專家水平。且在與Google有合作的幾個醫院里,用訓練集之外的真實數據去驗證的結果仍然相當不錯,這對于數字病理切片分割和性質的判斷是很有應用前景的。
5. 基于眼底照片的糖尿病性視網膜病變檢測
這篇是Google Brain的結果,仍然是以Inception Net為基礎的模型結構。本身眼底鏡影像相比于其他影像最麻煩的地方在于,眼底鏡之間的數據異構性太大,不同人拍攝出來的眼底鏡的曝光程度、偏心程度、視野范圍,都有很大的變異性。如何很好的在預處理階段盡可能的消除這些變異性影像,是它做的重要工作。最后達到的效果也是相當不錯,判斷視網膜病變嚴重程度的準確率和人類專家持平。
6. 胸片骨減影應用
通常來說,面向的數據集都是斷層掃描,因為斷層掃描能夠獲得盡可能多的數據。但是,斷層掃描單次檢查對于患者的輻射量很大,用X射線要反復去切患者身體,輻射量要比做一次X光胸透大得多。我們想,有些患者是不是可以從單次胸透這種以很低劑量接受的檢查的結果里面,發掘出來盡可能多的信息。胸透之所以提供信息量有限,是因為胸透是一個平面的疊加,把骨骼密度和人體里面軟組織的密度分布情況,都疊加在一起,很難看清楚細節,誰也不知道這一部分吸收的X射線,到底是因為哪個組織產生的。
我們看軟組織時,會希望把骨骼引起的影響給消減掉,也就是說把骨骼的影子去掉。怎么去除骨骼影這個問題很早就有人思考。醫療影像儀器制造商想了一個很聰明的辦法,他考慮軟組織和骨骼對于不同能量的X射線吸收特性不一樣,那就先用低能量X射線拍一張,間隔很短時間后,再用高能量X射線拍一張,然后基于這兩張照片上面不同組織的吸收特性不一樣,做一個建模,然后利用數學方法把這個影減掉,這就是DES,也就是雙能量數字減影技術。它可以拍出幾乎看不到任何骨骼影子的軟組織照片,但是DES技術有一個先天技術缺陷,是兩次拍攝之間有一個間隔時間。
人是活著的,人體的組織在不停地蠕動,在間隔過程中,器官可能會變形,可能會移位,然后會造成DES技術拍出來的軟組織照片有很多偽影,這個偽影會誤導醫生。在這個文章里面,它利用深度學習方法,基于單張傳統胸透照片剔除其中的骨骼痕跡,得到的結果比傳統DES攝影的軟組織細節效果更好,也沒有DES技術中產生的軟組織偽影,這一篇文章是很有啟發性的。
五、醫學數據處理方向、成果、挑戰
1. 醫學數據處理方向
一是臨床信息的提取。包括我們如何去把傳統的非結構化文本病歷進行電子化、結構化,轉變成可分析、可處理的結構化數據。
二是掌握結構化數據。誰掌握了越多的可分析的結構化數據,誰就能做出越多的臨床科研成果,數據是最核心的價值。零氪科技開發了Fellow-X自動結構化引擎,可以讓95%以上通過HIS系統對接的電子病歷,自動轉化成可分析、可處理的結構化數據,極大的降低了結構化的工作量。還有剩下的只能靠人工部分,也設計了一個很好的雙錄入加QC的比對流程去處理那些很難處理的少量病歷。
2. 醫學數據處理成果
基于結構化病歷的數據,得到成果。其中包括肺部結節的檢測模型、重要并發癥的風險預測。現在做的是中性粒細胞減少癥、血紅蛋白減少癥、血小板減少癥這些的風險預測。它們是肺癌患者化療后很容易出現的一種惡性并發癥,一旦出現嚴重的癥狀可能會造成生命危險。如果應用了零氪科技的預測模型,可以提前預知患者出現嚴重并發癥的風險如何,然后在化療前就給予適當處理,降低出現嚴重并發癥的風險。
3. 醫學數據處理挑戰
主要有三大塊,一是優化目標的定義,也就是說問題本身的定義如何;二是可用數據,你能否拿到足夠多的可用數據;三是模型的可解釋性,如何處理對模型結果推理過程的置疑。
優化目標定義:之所以是一個問題,是因為臨床上面很多問題的定義是模棱兩可的,我們只能憑經驗、憑一些醫生的日常行為來粗略地去刻畫這個問題,很難拿到一個數學上非常精確的問題定義。但是一旦問題定義不精確,最后對問題建模后的結果必然不對。所以優化目標的精確定義是非常重要的。
可用數據:即可用數據、高質量的數據集的重要性。
模型因果性、可解釋性:這是與臨床結合做研究的時候一個獨有的問題。臨床是和人的生命息息相關的,所以做的任何一件事情都要有理有據,都要有因果推論的關系。但是,我們做機器學習模型時,很容易陷入到直接對相關性進行建模的這樣一個陷阱里。相關性建模涉及的兩個因素未必有直接的因果關系,得出的這個模型,如何解釋它最后結果的意義,是一個很難處理的事情。這一點就橫亙在很多模型最后產品化、產業化的路上面,是一只攔路虎。如果不解決可解釋性問題的話,就很難邁過這道門檻,把機器學習成果投入實際產業化。
轉載自 http://baijiahao.baidu.com/s?id=1571640250632901&wfr=spider&for=pc