最常用的算法有哪些?
計(jì)算機(jī)視覺領(lǐng)域一般不同的應(yīng)用有著不同的算法實(shí)現(xiàn),我主要研究的就是計(jì)算機(jī)視覺方面的應(yīng)用,主要是在圖像預(yù)處理、分類、目標(biāo)檢測等方面。
1. 圖像分類。圖像分類是根據(jù)圖像的語義信息將不同類別圖像區(qū)分開來,是計(jì)算機(jī)視覺中重要的基本問題,也是圖像檢測、圖像分割、物體跟蹤、行為分析等其他高層視覺任務(wù)的基礎(chǔ)。機(jī)器學(xué)習(xí)方面的算法有SVM、Adaboost、決策樹以及貝葉斯分類器等;深度學(xué)習(xí)方面經(jīng)典的算法有AlexNet、VGG、GoogleNet、ResNet等網(wǎng)絡(luò)。
2. 目標(biāo)檢測。目標(biāo)檢測就是在復(fù)雜場景中檢測出我們需要的目標(biāo),又用傳統(tǒng)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的,也有用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測的。傳統(tǒng)機(jī)器學(xué)習(xí)算法比如利用Adaboost進(jìn)行人臉檢測、SVM算法實(shí)現(xiàn)行人檢測等;深度學(xué)習(xí)方面目標(biāo)檢測算法,既有基于區(qū)域建議的R-CNN、Fast R-CNN、Faster R-CNN等兩個(gè)階段的目標(biāo)檢測算法,也有Yolo、SSD等端到端的目標(biāo)檢測算法。
3. 目標(biāo)跟蹤。目標(biāo)跟蹤,是指在特定場景跟蹤某一個(gè)或多個(gè)特定感興趣對象的過程。我之前做過目標(biāo)跟蹤的實(shí)驗(yàn),利用的是傳統(tǒng)的圖像處理算法,比如光流法、粒子濾波法、卡爾曼濾波法以及KCF相關(guān)濾波算法等。深度學(xué)習(xí)算法中有DLT、FCNT、MD Net等網(wǎng)絡(luò),深度學(xué)習(xí)目標(biāo)跟蹤算法接觸的少,不是很了解。
4. 語義分割。語義分割是計(jì)算機(jī)視覺中的基本任務(wù),在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,「語義的可解釋性」即分類類別在真實(shí)世界中是有意義的,將整個(gè)圖像分成一個(gè)個(gè)像素組,然后對其進(jìn)行標(biāo)記和分類。傳統(tǒng)的圖像分割算法有基于閾值的分割算法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等;現(xiàn)在深度學(xué)習(xí)算法在語義分割上效果更好,比如現(xiàn)在最常用的全卷機(jī)神經(jīng)網(wǎng)絡(luò)算法(FCN)。
還有好多應(yīng)用,比如人臉檢測識別,有Adaboost算法、MTCNN網(wǎng)絡(luò)以及FaceNet網(wǎng)絡(luò)等;文字識別,智能駕駛,醫(yī)學(xué)圖像處理等等,分別有不同的算法實(shí)現(xiàn)。
計(jì)算機(jī)視覺編程語言的話需要根據(jù)算法以及平臺來選擇。傳統(tǒng)圖像處理大都用的是opencv和matlab平臺,分別用C++語言和matlab語言;深度學(xué)習(xí)框架大都是基于Python的API實(shí)現(xiàn)的,可以用python語言實(shí)現(xiàn),比如Tensorflow、Caffe、keras以及MxNet等平臺,當(dāng)然Caffe還可以用C++實(shí)現(xiàn)。
我現(xiàn)在實(shí)現(xiàn)傳統(tǒng)圖像處理算法的話用的是C++語言,深度學(xué)習(xí)算法在TensorFlow/Keras框架上用Python語言實(shí)現(xiàn)。