色婷婷狠狠18禁久久YY,CHINESE性内射高清国产,国产女人18毛片水真多1,国产AV在线观看

聲音識別系統(tǒng)是根據(jù)什么原理制成的

老白2年前13瀏覽0評論

聲音識別系統(tǒng)是根據(jù)什么原理制成的?

音頻識別與大多數(shù)識別問題一樣,分為幾個步驟:

1. 特征提取2. 索引庫3. 搜索與模糊匹配4. 識別結(jié)果的拼接特征提取方面有很多算法,基于FFT的頻域信息是相對簡單的,值得深入研究。頻域信號提取出來后,因為頻段太多,一般都會要做個歸并,合并成幾個大的頻段。

比如Philips的算法就是合并成32個頻段,我之前做的系統(tǒng)是合并成6個頻段,Shazam的是4個頻段。特征的好壞直接影響了識別的效果,需要反復(fù)優(yōu)化。

特征提取出來后,就需要建立索引庫,存放所有的特征,每個特征都是要對應(yīng)實際內(nèi)容一部分的。

實際情況往往索引庫會很大,所以通常不會用普通的關(guān)系式數(shù)據(jù)庫。我用過redis,以及python dict。因為查詢太過頻繁,盡量不要走網(wǎng)絡(luò)。我之前做的一個系統(tǒng),一個24小時的音頻,對數(shù)據(jù)庫的特征查詢次數(shù)在幾十億到幾百億次。走網(wǎng)絡(luò)是不可想象的。

搜索的過程則因為是多媒體數(shù)據(jù)而變得麻煩了許多。

具體就是要設(shè)計模糊匹配方法。很多因素會導(dǎo)致提取的特征與原特征存在誤差,需要自己想辦法來降低誤差對結(jié)果的影響。

比如說FFT切段的過程會引入高頻噪聲,50Hz的工頻也會引入噪聲,所以我一般取FFT頻段時是選擇64~3300Hz范圍內(nèi)的。

模糊匹配方面,就可以把特征中每個值都做一下+/-1,然后生成一大堆的子特征去索引庫里查詢。

如上的識別結(jié)果只是一些點,說明這個點匹配出了一些結(jié)果,往往結(jié)果還很多。

此時還需要將點連成段才算是有意義的結(jié)果。

比如你識別出來了3個字,中間的聽不清 "我?你" ,且索引庫里已經(jīng)包含句子 "我愛你" 。那么就應(yīng)該根據(jù)這些推斷出來有一定的概率結(jié)果就是跟索引庫里的一樣。

實際建立概率模型也是個巨麻煩的事情。中間跳過的未識別點數(shù)量也是經(jīng)驗數(shù)據(jù)。

比如我試過1/8秒一個點,跳過6個點就會產(chǎn)生大量誤識別了,但是跳過2個點就比不跳的識別率高很多。

我在過去的2年多設(shè)計了一套音頻識別系統(tǒng),包含如上的所有組件,用以識別電視節(jié)目中的廣告。

運行高峰時期,索引庫里有大約1000小時的音頻。識別正確率在95~98%之間晃動,誤識別在2~3%之間晃動。

輸入24小時音頻的識別時間大約5~10分鐘。