色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

語音識別的技術原理是什么?

張吉惟2年前17瀏覽0評論

看圖
  • 編碼:把語音變成向量
    • 頻域信息:人類是通過振動頻率來判斷聲音的,所以要用傅里葉變換來完成時域頻域之間的轉換;
    • 特征:如,MFCC是依照人耳的聽聲特點提出的filter。然后我們有了語音向量。
  • 訓練:從數據中學習對語音的判斷,而不是用人工的規則。
    • 聲學模型(acoustic model):用于識別語音向量;可用GMM或DNN等方法來識別向量,用DTW或HMM或CTC來對齊(alignment)識別結果的輸出(單詞從何時開始,何時結束)
    • 字典(dictionary):多數模型并不是以單詞,而是以音素為識別單位。當識別出? p l這三個音素時,利用字典,就可以判斷出所說的詞是apple。
    • 語言模型(language model):我們在聽老外說錯誤的中文時依然能夠識別內容是因為我們有關于語法的知識,可以調整聲學模型所識別出的不合邏輯的詞語。這就是語言模型的作用
  • 解碼:用訓練好的模型組合起來就可以通過判斷新的語音向量,來識別語音了。