深度學習的attention機制是什么?
注意力機制(Attention Mechanism)思想來源于神經科學對大腦處理信息機制的研究。也就是我們在用眼睛觀察時,往往只會注意到某一部分,并對其作出相應的反應。比如我們在看一段文字的時候,一次只能注意到其中幾個詞,然后移動著來理解整段文字的意思。同樣在看一張圖片,我們也只能集中注意力在某一處,比如人臉等等,當目光發生轉移,那么注意力也就會隨之轉移。
通過注意力機制,我們只需要對某一區域投入更多的注意力,這樣就能獲得我們最關注的細節信息,同時抑制其他無關信息。這種從大量信息中篩選出關鍵信息的方法極大提高了信息處理的準確性和效率。注意力機制實際上就是一種資源分配的機制。
目前,注意力機制主要的應用于編碼-解碼(Encoder-Decoder)框架中。如文字翻譯模型中,先對輸入的文字進行編碼,再解碼成另外一種語言文字。類似的,在圖片轉文字中(即給定一張圖片,生成一段描述文字),也是對圖片的不同區域進行編碼,然后再解碼成描述的文字。其中編碼器和解碼器的選擇可以有很多,如CNN、RNN和LSTM等等。下圖就是一個典型的編碼-解碼的翻譯模型(英-法翻譯),中間就是編碼結果。
這里以注意力機制在翻譯模型中應用為例:
在一般的翻譯模型,解碼輸出時,往往都是一個詞一個詞輸出的。輸出的結果不僅前一個輸出結果有關,同時也跟編碼的結果有關。其中對于不同的輸出,編碼的輸入都是相同的。
數學化上述過程為
輸入輸出為:
編碼和解碼的過程為:
但是,在翻譯其中某一個詞時,我們并不需要知道整句話的含義編碼。對于將“I love machine learning”翻譯成中文即我愛機器學習,當我們翻譯“我”時并只需要注意放在I就可以了,而后面的“love machine learning”對于目前的翻譯結果作用很小。因此注意力機制就是解決了這個問題,在翻譯不同詞的時候,輸入不同的編碼。
其中Ci就是對每個輸入單詞編碼的加權結果。注意力機制就是動態的調節權重(解碼出的每個詞都對應著一個權重分布向量),從而對單詞分配不同的注意力。其中的權重的計算同輸入編碼和之前的輸出狀態有關。
最終,我們可以這樣來理解注意力機制:
將輸入source(可以是圖像或者文字)中的元素看成是由一系列的<Key,Value>數據對構成,其中key可以是表示單詞或者圖像的某一塊區域,Value是對key的向量化表示(embedding)。此時給定輸出Target中的某個元素Query,通過計算Query和各個Key的相似性或者相關性,得到每個Key對應Value的權重系數,再對Value進行加權求和,就可以得到Attention數值。最后,再用Attention數值來計算出當前的輸出值。