人臉識別原理與模型方法綜述
一、人臉識別流程
圖一、人臉識別流程圖
二、優(yōu)點特性
1、便捷性
采集設(shè)備簡單,使用快捷。一般來說,常見的攝像頭就可以用來進行人臉圖像的采集, 不需特別復(fù)雜的專用設(shè)備。圖像采集在數(shù)秒內(nèi)即可完成。
2、友好性
通過人臉識別身份的方法與人類的習(xí)慣一致,人和機器都可以使用人臉圖片進行識別。而指紋,虹膜等方法沒有這個特點,一個沒有經(jīng)過特殊訓(xùn)練的人,無法利用指紋和虹膜圖像對其他人進行身份識別。
3、非接觸性
人臉圖像信息的采集不同于指紋信息的采集,利用指紋采集信息需要用手指接觸到采集設(shè)備,既不衛(wèi)生,也容易引起使用者的反感,而人臉圖像采集,用戶不需要與設(shè)備直接接觸。
4、可擴展性
在人臉識別后,下一步數(shù)據(jù)的處理和應(yīng)用,決定著人臉識別設(shè)備的實際應(yīng)用,如應(yīng)用在出入門禁控制、人臉圖片搜索、上下班刷卡、恐怖分子識別等各個領(lǐng)域,可擴展性強。
三、影響因素
1. 分辨率(大小):最佳分辨率到最小分辨率(臨界分辨率)之間最穩(wěn)定
2. 清晰度
3. 光照環(huán)境
4. 模糊程度
5. 遮擋程度
6. 采集角度
四、人臉識別技術(shù)流程
人臉識別技術(shù)原理簡單來講主要是三大步驟:
1、建立一個包含大批量人臉圖像的數(shù)據(jù)庫,來源:自傳照片、身份證讀卡器、公安人臉比對接(已關(guān)閉);
2、通過各種方式來獲得當(dāng)前要進行識別的目標(biāo)人臉圖像;
3、將目標(biāo)人臉圖像與數(shù)據(jù)庫中既有的人臉圖像進行比對和篩選。
根據(jù)人臉識別技術(shù)原理具體實施起來的技術(shù)流程則主要包含以下四個部分,即:人臉圖像的采集與預(yù)處理、人臉檢測、人臉特征提取、人臉識別和活體鑒別。
1、人臉圖像的采集與預(yù)處理
?。?)人臉圖像的采集:
采集人臉圖像通常情況下有兩種途徑,分別是既有人臉圖像的批量導(dǎo)入和人臉圖像的實時采集
?。?)人臉圖像的預(yù)處理:
人臉圖像的預(yù)處理的目的是在系統(tǒng)對人臉圖像的檢測基礎(chǔ)之上,對人臉圖像做出進一步的處理,即灰度調(diào)整、圖像濾波、圖像尺寸歸一化等,以利于人臉圖像的特征提取。人臉圖像的預(yù)處理具體而言是指對系統(tǒng)采集到的人臉圖像進行光線、旋轉(zhuǎn)、切割、過濾、降噪、放大縮小等一系列的復(fù)雜處理過程來使得該人臉圖像無論是從光線、角度、距離、大小等任何方面來看均能夠符合人臉圖像的特征提取的標(biāo)準(zhǔn)要求。
基于人臉檢測結(jié)果,對圖像進行處理并最終服務(wù)于特征提取的過程。系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機干擾,往往不能直接使用,必須在圖像處理的早期階段對它進行灰度矯正、噪聲過濾等圖像預(yù)處理。
預(yù)處理過程:
1)人臉對準(zhǔn)(得到人臉位置端正的圖像);
2)人臉圖像的光線補償,灰度變換、直方圖均衡化、歸一 化(取得尺寸一致,灰度取值范圍相同的標(biāo)準(zhǔn)化人臉圖像);
3)幾何校正、中值濾波(圖片的平滑操作以消除噪聲)以及銳化等。
2、人臉檢測
在圖像中準(zhǔn)確標(biāo)定出人臉的位置和大小,并把其中有用的信息挑出來(如直方圖特征、顏色特征、模板特征、結(jié)構(gòu)特征及Haar特征等),然后利用信息來達(dá)到人臉檢測的目的。
人臉關(guān)鍵點檢測(人臉對齊):自動估計人臉圖片上臉部特征點的坐標(biāo)。
一張包含人臉圖像的圖片通常情況下可能還會包含其他內(nèi)容,這時候就需要進行必要的人臉檢測。也就是在一張人臉圖像之中,系統(tǒng)會精準(zhǔn)的定位出人臉的位置和大小,在挑選出有用的圖像信息的同時自動剔除掉其他多余的圖像信息來進一步的保證人臉圖像的精準(zhǔn)采集。人臉檢測是一個具有挑戰(zhàn)性的目標(biāo)檢測問題,主要體現(xiàn)在兩方面:
(1)人臉目標(biāo)內(nèi)在的變化引起:
1)人臉具有相當(dāng)復(fù)雜的細(xì)節(jié)變化和不同的表情(眼、嘴的開與閉等);
2)不同的人臉具有不同的外貌,如臉形、膚色等;
3)人臉的遮擋,如眼鏡、頭發(fā)和頭部飾物等。
?。?)外在條件變化引起:
1)由于成像角度的不同造成人臉的多姿態(tài),如平面內(nèi)旋轉(zhuǎn)、深度旋轉(zhuǎn)以及上下旋轉(zhuǎn)等,其中深度旋轉(zhuǎn)影響較大;
2)光照的影響,如圖像中的亮度、對比度的變化和陰影等;
3)圖像的成像條件,如攝像設(shè)備的焦距、成像距離等。
人臉檢測重點關(guān)注以下指標(biāo):
?。?)檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,檢測模型效果越好;
?。?)誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,檢測模型效果越好;
?。?)漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,檢測模型效果越好;
?。?)速度:從采集圖像完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。
目前的人臉檢測方法可分為三類,分別是基于膚色模型的檢測、基于邊緣特征的檢測、基于統(tǒng)計理論方法,
(1)基于膚色模型的檢測:
膚色用于人臉檢測時,可采用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數(shù)估計等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進行人臉檢測。通過提取彩色圖像中的面部區(qū)域以實現(xiàn)人臉檢測的方法能夠處理多種光照的情況, 但該算法需要在固定攝像機參數(shù)的前提下才有效。Comaniciu 等學(xué)者利用非參數(shù)的核函數(shù)概率密度估計法來建立膚色模型,并使用 mean-shift 方法進行局部搜索實現(xiàn)了人臉的檢測和跟蹤。這一方法提高了人臉的檢測速度,對于遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結(jié)合性不是很高,同時,用于人臉檢測時,處理復(fù)雜背景和多個人臉時存在困難。為了解決人臉檢測中的光照問題,可以針對不同光照進行補償,然后再檢測圖像中的膚色區(qū)域。這樣可以解決彩色圖像中偏光、背景復(fù)雜和多個人臉的檢測問題,但對人臉色彩、位置、尺度、旋轉(zhuǎn)、姿態(tài)和表情等具有不敏感性。
?。?)基于邊緣特征的檢測:
利用圖像的邊緣特征檢測人臉時,計算量相對較小,可以實現(xiàn)實時檢測。大多數(shù)使用邊緣特征的算法都是基于人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進行匹配。也有研究者采用橢圓環(huán)模型與邊緣方向特征,實現(xiàn)簡單背景的人臉檢測。Fr?ba 等采用基于邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進行人臉檢測。該算法在復(fù)雜背景下誤檢率比較高,但是與其他的特征相融合后可以獲得很好的效果。
?。?)基于統(tǒng)計理論方法:
本文重點介紹基于統(tǒng)計理論方法中的Adaboost人臉檢測算法。Adaboost算法是通過無數(shù)次循環(huán)迭代來尋求最優(yōu)分類器的過程。基于檢測出的特征采用Adaboost學(xué)習(xí)算法(一種用來分類的方法,它把一些比較弱的分類方法合在一起,組合出新的很強的分類方法)挑選出一些最能代表人臉的矩形特征(弱分類器),按照加權(quán)投票的方式將弱分類器構(gòu)造為一個強分類器,再將訓(xùn)練得到的若干強分類器串聯(lián)組成一個級聯(lián)結(jié)構(gòu)的層疊分類器,有效地提高分類器的檢測速度。用弱分類器Haar特征中任一特征放在人臉樣本上,求出人臉特征值,通過更多分類器的級聯(lián)便得到人臉的量化特征,以此來區(qū)分人臉和非人臉。Haar功能由一些簡單黑色白色水平垂直或旋轉(zhuǎn)45°的矩形組成。目前的Haar特征總的來說廣義地分為三類:邊緣特征、線特征以及中心特征。
?。?)其他框架:
viola-jones框架(性能一般速度尚可,適合移動端、嵌入式上使用)、dpm(速度較慢)、CNN(性能不錯)
3、人臉特征提取
人臉識別系統(tǒng)可使用的特征通常分為視覺特征、像素統(tǒng)計特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。人臉特征提取就是針對人臉的某些特征進行的,也稱人臉表征,它是對人臉進行特征建模的過程。
方法:
?。?)基于知識的表征方法(主要包括基于幾何特征法和模板匹配法):
根據(jù)人臉器官的形狀描述以及它們之間的距離特性來獲得有助于人臉分類的特征數(shù)據(jù),其特征分量通常包括特征點間的歐氏距離、曲率、和角度等。人臉由眼睛、鼻子、嘴、下巴等局部構(gòu)成,對這些局部和他們之間結(jié)構(gòu)關(guān)系的幾何描述,可作為識別人臉的重要特征,這些特征被稱為幾何特征。
?。?)基于代數(shù)特征或統(tǒng)計學(xué)習(xí)的表征方法:
基于代數(shù)特征方法的基本思想是將人臉在空域內(nèi)的高維描述轉(zhuǎn)化為頻域或者其他空間內(nèi)的低維描述,其表征方法為線性投影表征方法和非線性投影表征方法。基于線性投影的方法主要有主成分分析法或稱K-L變化、獨立成分分析法和Fisher線性判別分析法。非線性特征提取方法有兩個重要的分支:基于核的特征提取技術(shù)和以流形學(xué)習(xí)為主導(dǎo)的特征提取技術(shù)。
4、匹配與識別:
提取的人臉特征值數(shù)據(jù)與數(shù)據(jù)庫中存貯的特征模板進行搜索匹配,通過設(shè)定一個閾值,將相似度與這一閾值進行比較,來對人臉的身份信息進行判斷。目前主要有幾種研究的方向,如:
?。?)基于人臉特征統(tǒng)計學(xué)的識別方法
特征臉的方法是一種比較經(jīng)典而又應(yīng)用比較廣的人臉識別方法,其主要原理是把圖像做降維算法,使得數(shù)據(jù)的處理更容易,同時,速度又比較快。特征臉的人臉識別方法,實際上是將圖像做 Karhunen-Loeve 變換,把一個高維的向量轉(zhuǎn)化為低維的向量,從而消除每個分量存在的關(guān)聯(lián)性,使得變換得到的圖像與之對應(yīng)特征值遞減。在圖像經(jīng)過 K-L 變換后,其具有很好的位移不變性和穩(wěn)定性。所以,特征臉的人臉識別方法具有方便實現(xiàn),并且可以做到速度更快,以及對正面人臉圖像的識別率相當(dāng)高等優(yōu)點。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態(tài)和光照改變等因素的影響,從而導(dǎo)致識別率低的情況。其主要有特征臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;
1)Eigen Face(特征臉)
MIT實驗室的特克(Turk)和潘特(Pentland)提出的“特征臉”方法第一次將主成分分析和統(tǒng)計特征技術(shù)引入人臉識別,在實用效果上取得了長足的進步。征臉技術(shù)是近期發(fā)展起來的用于人臉或者一般性剛體識別以及其它涉及到人臉處理的一種方法。使用特征臉進行人臉識別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),并由 Matthew Turk 和 Alex Pentland 用于人臉分類(《Eigenfaces for recognition》)。首先把一批人臉圖像轉(zhuǎn)換成一個特征向量集,稱為“Eigenfaces”,即“特征臉”,它們是最初訓(xùn)練圖像集的基本組件。識別的過程是把一副新的圖像投影到特征臉子空間,并通過它的投影點在子空間的位置以及投影線的長度來進行判定和識別。
將圖像變換到另一個空間后,同一個類別的圖像會聚到一起,不同類別的圖像會聚力比較遠(yuǎn),在原像素空間中不同類別的圖像在分布上很難用簡單的線或者面切分,變換到另一個空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分布的主要成分,具體實現(xiàn)是對訓(xùn)練集中所有人臉圖像的協(xié)方差矩陣進行本征值分解,得到對應(yīng)的本征向量,這些本征向量就是“特征臉”。每個特征向量或者特征臉相當(dāng)于捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個人臉都可以表示為這些特征臉的線性組合。其后的很多人臉識別技術(shù)都或多或少與特征臉有關(guān)系,現(xiàn)在特征臉已經(jīng)與歸一化的協(xié)相關(guān)量(Normalized Correlation)方法一道成為人臉識別的性能測試基準(zhǔn)算法。
2)局部二值模式(Local Binary Patterns,LBP)
局部二值模式(Local Binary Patterns LBP)是計算機視覺領(lǐng)域里用于分類的視覺算子。LBP 一種用來描述圖像紋理特征的算子,該算子由芬蘭奧盧大學(xué)的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發(fā)表了一篇關(guān)于 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉(zhuǎn)不變、等價模式的改進的 LBP 特征。LBP 的核心思想就是:以中心像素的灰度值作為閾值,與他的領(lǐng)域相比較得到相對應(yīng)的二進制碼來表示局部紋理特征。
LBP 是提取局部特征作為判別依據(jù)的。LBP 方法顯著的優(yōu)點是對光照不敏感,但是依然沒有解決姿態(tài)和表情的問題。不過相比于特征臉方法,LBP 的識別率已經(jīng)有了很大的提升。
3)Fisher Face(漁夫臉):
線性鑒別分析在降維的同時考慮類別信息,由統(tǒng)計學(xué)家 Sir R. A. Fisher1936 年發(fā)明(《The use of multiple measurements in taxonomic problems》)。為了找到一種特征組合方式,達(dá)到最大的類間離散度和最小的類內(nèi)離散度。這個想法很簡單:在低維表示下,相同的類應(yīng)該緊緊的聚在一起,而不同的類別盡量距離越遠(yuǎn)。1997 年,Belhumer 成功將 Fisher 判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。該方法首先采用主成分分析(PCA)對圖像表觀特征進行降維。在此基礎(chǔ)上,采用線性判別分析(LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內(nèi)散度”。該方法目前仍然是主流的人臉識別方法之一,產(chǎn)生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的LDA 判別方法以及近期的一些基于核學(xué)習(xí)的改進策略。
(2)基于幾何特征的方法
幾何特征可以是眼、鼻、嘴等的形狀和它們之間的幾何關(guān)系(如相互之間的距離),利用了人臉的幾何結(jié)構(gòu),通過分析人臉器官特征點及其之間的拓?fù)潢P(guān)系進行辨識。這些算法簡單直觀,識別速度快,需要的內(nèi)存小,但一旦人臉姿態(tài)、表情發(fā)生變化,精度則嚴(yán)重下降,識別率較低。
基于幾何特征識別的流程大體如下:
1)首先對人臉面部的各個特征點及其位置進行檢測, 如鼻子、嘴巴和眼睛等位置;
2)然后計算這些特征之間的距離,得到可以表達(dá)每個特征臉的矢量特征信息,例如眼睛的位置,眉毛的長度等;
3)其次還計算每個特征與之相對應(yīng)關(guān)系,與人臉數(shù)據(jù)庫中已知人臉對應(yīng)特征信息來做比較;
4)最后得出最佳的匹配人臉。
基于幾何特征的方法符合人們對人臉特征的認(rèn)識,另外,每幅人臉只存儲一個特征,所以占用的空間比較小;同時,這種方法對光照引起的變化并不會降低其識別率,而且特征模板的匹配和識別率比較高。但是,基于幾何特征的方法也存在著魯棒性不好,一旦表情和姿態(tài)稍微變化,識別效果將大打折扣。
?。?)基于線段Hausdorff 距離(LHD) 的方法
心理學(xué)的研究表明,人類在識別輪廓圖(比如漫畫)的速度和準(zhǔn)確度上絲毫不比識別灰度圖差。LHD是基于從人臉灰度圖像中提取出來的線段圖的,它定義的是兩個線段集之間的距離,與眾不同的是,LHD并不建立不同線段集之間線段的一一對應(yīng)關(guān)系,因此它更能適應(yīng)線段圖之間的微小變化。實驗結(jié)果表明,LHD在不同光照條件下和不同姿態(tài)情況下都有非常出色的表現(xiàn),但是它在大表情的情況下識別效果不好。流程如下:
1)人臉圖像預(yù)處理:對齊、尺寸、亮度和對比度歸一化
2)Canny算子提取人臉邊緣圖
3)去除邊緣線條中的裂縫
4)設(shè)置閾值去除噪音線
5)在LEM中結(jié)合ASM得到人臉對準(zhǔn)結(jié)果,消除了頭發(fā)和背景的影響
6)增加重要部分地權(quán)重
7)提出線段領(lǐng)域的概念,保持識別率并提升識別速度
(4)基于連接機制
主要有人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)方法和支持向量機(SVM,Support Vector Machine)方法等。
1)EGM(彈性圖匹配):
其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關(guān)鍵特征點,其屬性為相應(yīng)特征點處的多分辨率、多方向局部特征——Gabor變換12特征,稱為Jet;邊的屬性則為不同特征點之間的幾何關(guān)系。對任意輸入人臉圖像,彈性圖匹配通過一種優(yōu)化搜索策略來定位預(yù)先定義的若干面部關(guān)鍵特征點,同時提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優(yōu)點是既保留了面部的全局結(jié)構(gòu)特征,也對人臉的關(guān)鍵局部特征進行了建模。
2)基于神經(jīng)網(wǎng)絡(luò)的方法
神經(jīng)網(wǎng)絡(luò)的輸入可以是降低分辨率的人臉圖像、局部區(qū)域的自相關(guān)函數(shù)、局部紋理的二階矩等。這類方法同樣需要較多的樣本進行訓(xùn)練,而在許多應(yīng)用中,樣本數(shù)量是很有限的。
3)基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)得到的人臉特征表達(dá)具有手工特征表達(dá)所不具備的重要特性,例如它是中度稀疏的、對人臉身份和人臉屬性有很強的選擇性、對局部遮擋具有良好的魯棒性。這些特性是通過大數(shù)據(jù)訓(xùn)練自然得到的,并未對模型加入顯式約束或后期處理,這也是深度學(xué)習(xí)能成功應(yīng)用在人臉識別中的主要原因。
深度學(xué)習(xí)在人臉識別上有 7 個方面的典型應(yīng)用:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的人臉識別方法,深度非線性人臉形狀提取方法,基于深度學(xué)習(xí)的人臉姿態(tài)魯棒性建模,有約束環(huán)境中的全自動人臉識別,基于深度學(xué)習(xí)的視頻監(jiān)控下的人臉識別,基于深度學(xué)習(xí)的低分辨率人臉識別及其他基于深度學(xué)習(xí)的人臉相關(guān)信息的識別。
其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法是一種深度的監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型,能挖掘數(shù)據(jù)局部特征,提取全局訓(xùn)練特征和分類,其權(quán)值共享結(jié)構(gòu)網(wǎng)絡(luò)使之更類似于生物神經(jīng)網(wǎng)絡(luò),在模式識別各個領(lǐng)域都得到成功應(yīng)用。CNN 通過結(jié)合人臉圖像空間的局部感知區(qū)域、共享權(quán)重、在空間或時間上的降采樣來充分利用數(shù)據(jù)本身包含的局部性等特征,優(yōu)化模型結(jié)構(gòu),保證一定的位移不變性。
4)基于支持向量機(SVM) 的方法
近年來,支持向量機是統(tǒng)計模式識別領(lǐng)域的一個新的熱點,它試圖使得學(xué)習(xí)機在經(jīng)驗風(fēng)險和泛化能力上達(dá)到一種妥協(xié),從而提高學(xué)習(xí)機的性能。支持向量機主要解決的是一個2分類問題,它的基本思想是試圖把一個低維的線性不可分的問題轉(zhuǎn)化成一個高維的線性可分的問題。通常的實驗結(jié)果表明SVM有較好的識別率,但是它需要大量的訓(xùn)練樣本(每類300個),這在實際應(yīng)用中往往是不現(xiàn)實的。而且支持向量機訓(xùn)練時間長,方法實現(xiàn)復(fù)雜,該函數(shù)的取法沒有統(tǒng)一的理論。
基于遺傳算法、支持向量機(Support Vector Machine,SVM)、boosting、流形學(xué)習(xí)以及核方法等進行人臉識別。2009 年至 2012 年,稀疏表達(dá)(Sparse Representation)因為其優(yōu)美的理論和對遮擋因素的魯棒性成為當(dāng)時的研究熱點。與此同時,業(yè)界也基本達(dá)成共識:基于人工精心設(shè)計的局部描述子進行特征提取和子空間方法進行特征選擇能夠取得最好的識別效果。
5)綜合多種識別方式的方法
以上幾種比較常用的人臉識別方法,我們不難看出,每一種識別方法都不能做到完美的識別率與更快的識別速度,都有著各自的優(yōu)點和缺點,因此,現(xiàn)在許多研究人員則更喜歡使用多種識別方法綜合起來應(yīng)用,取各種識別方法的優(yōu)勢,綜合運用,以達(dá)到更高的識別率和識別效果。
5、活體鑒別
生物特征識別的共同問題之一就是要區(qū)別該信號是否來自于真正的生物體,比如,指紋識別系統(tǒng)需要區(qū)別帶識別的指紋是來自于人的手指還是指紋手套,人臉識別系統(tǒng)所采集到的人臉圖像,是來自于真實的人臉還是含有人臉的照片。因此,實際的人臉識別系統(tǒng)一般需要增加活體鑒別環(huán)節(jié),例如,要求人左右轉(zhuǎn)頭,眨眼睛,開開口說句話等。
五、經(jīng)典論文
1、Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱為 Eigenpictures 的坐標(biāo)系統(tǒng)來表示。Eigenpictures 是面部集合的平均協(xié)方差的本征函數(shù)。
2、Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發(fā)了一種近實時的計算機系統(tǒng),可以定位和追蹤人的頭部,然后通過比較面部特征和已知個體的特征來識別該人。該方法將面部識別問題視為二維識別問題。識別的過程是把一副新的圖像投影到特征臉子空間,該特征空間捕捉到已知面部圖像之間的顯著變化。重要特征稱為特征臉,因為它們是面集的特征向量。
3、Ojala,T.,Pietik?inen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對不同的圖形紋理進行比較,并提出了用來描述圖像紋理特征的 LBP 算子。
4、Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡單而有效的灰度和旋轉(zhuǎn)不變紋理分類方法,該方法基于局部二值模式和樣本和原型分布的非參數(shù)判別。該方法具有灰度變化穩(wěn)健、計算簡單的特點。
5、Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特征組合方式,以達(dá)到最大的類間離散度和最小的類內(nèi)離散度。解決方式為:在低維表示下,相同的類應(yīng)該緊緊的聚在一起,而不同的類別盡量距離越遠(yuǎn)。
6、Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces
vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基于 Fisher 的線性判別進行面部投影,能夠在低維子空間中產(chǎn)生良好分離的類,即使在光照和面部表情的變化較大情況下也是如此。廣泛的實驗結(jié)果表明, 所提出的“Fisherface”方法的誤差率低于哈佛和耶魯人臉數(shù)據(jù)庫測試的特征臉技術(shù)。
六、人臉識別數(shù)據(jù)庫
1、ERET人臉數(shù)據(jù)庫
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 項目創(chuàng)建,此圖像集包含大量的人臉圖像,并且每幅圖中均只有一個人臉。該集中,同一個人的照片有不同表情、光照、姿態(tài)和年齡的變化。包含 1 萬多張多姿態(tài)和光照的人臉圖像,是人臉識別領(lǐng)域應(yīng)用最廣泛的人臉數(shù)據(jù)庫之一。其中的多數(shù)人是西方人,每個人所包含的人臉圖像的變化比較單一。
2、Yale人臉數(shù)據(jù)庫
3、ORL人臉數(shù)據(jù)庫
4、CMU Multi- PIE人臉數(shù)據(jù)庫
http://www.flintbox.com/public/project/4742/
由美國卡耐基梅隆大學(xué)建立。所謂“PIE”就是姿態(tài)(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉數(shù)據(jù)庫是在 CMU-PIE 人臉數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的。包含 337 位志愿者的 75000 多張多姿態(tài),光照和表情的面部圖像。其中的姿態(tài)和光照變化圖像也是在嚴(yán)格控制的條件下采集的,目前已經(jīng)逐漸成為人臉識別領(lǐng)域的一個重要的測試集合。
5、YALE人臉數(shù)據(jù)庫(美國,耶魯大學(xué))
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶魯大學(xué)計算視覺與控制中心創(chuàng)建,包含 15 位志愿者的 165 張圖片,包含光照、表情和姿態(tài)的變化。
6、YALE人臉數(shù)據(jù)庫 B
https://computervisiononline.com/dataset/1105138686
包含了 10 個人的 5850 幅在 9 種姿態(tài),64 種光照條件下的圖像。其中的姿態(tài)和光照變化的圖像都是在嚴(yán)格控制的條件下采集的,主要用于光照和姿態(tài)問題的建模與分析。由于采集人數(shù)較少,該數(shù)據(jù)庫的進一步應(yīng)用受到了比較大的限制。
7、ORL人臉數(shù)據(jù)庫
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英國劍橋大學(xué) AT&T 實驗室創(chuàng)建,包含 40 人共 400 張面部圖像,部分志愿者的圖像包括了姿態(tài),表情和面部飾物的變化。該人臉庫在人臉識別研究的早期經(jīng)常被人們采用,但由于變化模式較少,多數(shù)系統(tǒng)的識別率均可以達(dá)到 90%以上,因此進一步利用的價值已經(jīng)不大。
ORL 人臉數(shù)據(jù)庫中一個采集對象的全部樣本庫中每個采集對象包含10 幅經(jīng)過歸一化處理的灰度圖像,圖像尺寸均為 92×112 ,圖像背景為黑色。其中采集對象的面部表情和細(xì)節(jié)均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態(tài)也有變化,其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá) 20 度。
8、BioID人臉數(shù)據(jù)庫
https://www.bioid.com/facedb/
包含在各種光照和復(fù)雜背景下的 1521 張灰度面部圖像,眼睛位置已經(jīng)被手工標(biāo)注。
9、UMIST圖像集
由英國曼徹斯特大學(xué)建立。包括 20 個人共 564 幅圖像,每個人具有不同角度、不同姿態(tài)的多幅圖像。
10、Yale 人臉數(shù)據(jù)庫中一個采集志愿者的 10 張樣本,相比較 ORL 人臉數(shù)據(jù)庫 Yale 庫中每個對象采集的樣本包含更明顯的光照、表情和姿態(tài)以及遮擋變化。
11、FERET人臉數(shù)據(jù)庫
12、年齡識別數(shù)據(jù)集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 張從 IMDB 和 Wikipedia 爬取的名人數(shù)據(jù)圖片。應(yīng)用了一個新穎的化回歸為分類的年齡算法。本質(zhì)就是在 0-100 之間的 101 類分類后,對于得到的分?jǐn)?shù)和 0-100 相乘, 并將最終結(jié)果求和,得到最終識別的年齡。
13、MIT數(shù)據(jù)庫
14、BANCA人臉數(shù)據(jù)庫
15、CAS-PEAL人臉數(shù)據(jù)庫
16、JAFE表情數(shù)據(jù)庫
17、Cohn-Kanade表情數(shù)據(jù)庫
18、MMI表情數(shù)據(jù)庫
七、技術(shù)發(fā)展方向
人臉自動識別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實際應(yīng)用中仍然面臨困難,不僅要達(dá)到準(zhǔn)確、快速的檢測并分割出人臉部分,而且要有效的變化補償、特征描述、準(zhǔn)確的分類的效果,還需要注重和提高以下幾個方面:
1、結(jié)合三維信息:二維和三維信息融合使特征更加魯棒
2、多特征融合:單一特征難以應(yīng)對復(fù)雜的光照和姿態(tài)變化
3、大規(guī)模人臉比對:面向海量數(shù)據(jù)的人臉比對與搜索
4、深度學(xué)習(xí):在大數(shù)據(jù)條件下充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)強大的學(xué)習(xí)能力
5、人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進一步深入研究,以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。
6、多特征融合和多分類器融合的方法也是改善識別性能的一個手段。
7、由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響 ,準(zhǔn)確的人臉識別仍較困難。為了滿足自動人臉識別技術(shù)具有實時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術(shù)的融合方法。
8、3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對各種變化因素采用模擬或補償?shù)姆椒ň哂休^好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統(tǒng)識別算法的基礎(chǔ)上改進和創(chuàng)新。
9、表面紋理識別算法是一種最新的算法 [52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。
總之,人臉識別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識別效果,如何與其它技術(shù)相結(jié)合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實現(xiàn),如何實用化都是將來值得研究的。
八、技術(shù)指標(biāo)
1、人臉檢測中的關(guān)鍵指標(biāo):例子:在攝像頭某張抓拍圖像中,一共有100張人臉,算法檢測出80張人臉,其中75張是真實人臉,5 張是把路標(biāo)誤識為人臉。
(1)檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,代表檢測模型效果越好。
?。?)誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,代表檢測模型效果越好。
?。?)漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,代表檢測模型效果越好。
?。?)速度:從采集圖像完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。
在這個實際案例中:檢測率=75/100 誤檢率=5/80 漏檢率=(100-75)/100
2、人臉識別中的關(guān)鍵指標(biāo):1000張樣本圖片里,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數(shù)量確很少,只有99/600。這樣很容易發(fā)生漏識的情況。
(1)精確率(precision):識別為正確的樣本數(shù)/識別出來的樣本數(shù)=99/100
?。?)召回率(recall):識別為正確的樣本數(shù)/所有樣本中正確的數(shù)=99/600
?。?)錯誤接受率/認(rèn)假率/誤識率(FAR,F(xiàn)alse Accept Rate):
定義:指將身份不同的兩張照片,判別為相同身份,越低越好
FAR = NFA / NIRA
式中 NIRA 代表的是類間測試次數(shù),既不同類別間的測試次數(shù),打比方如果有1000個識別 模型,有1000個人要識別,而且每人只提供一個待識別的素材,那 NIRA=1000*(1000-1) 。NFA是錯誤接受次數(shù)。
(4)錯誤拒絕率/拒真率/拒識率(FRR, False Reject Rate):
定義:指將身份相同的兩張照片,判別為不同身份,越低越好
FRR = NFR / NGRA
上式中NFR是類內(nèi)測試次數(shù),既同類別內(nèi)的測試次數(shù),打比方如果有1000個識別模型, 有1000個人要識別, 而且每人只提供一個待識別的素 材,那 NIRA=1000,如果每個人提供N張圖片,那么 NIRA=N*1000 。NFR是錯誤拒絕次數(shù)。
FAR決定了系統(tǒng)的安全性,F(xiàn)RR決定了系統(tǒng)的易用程度,在實際中,F(xiàn)AR對應(yīng)的風(fēng)險遠(yuǎn)遠(yuǎn)高于FRR,因此,生物識別系統(tǒng)中,會將FAR設(shè)置為一個非常低的范圍,如萬分之一甚至百萬分之一,在FAR固定的條件下,F(xiàn)RR低于5%,這樣的系統(tǒng)才有實用價值。
九、存在的問題:
1、信息泄露
2、1:N檢索或同時作業(yè)N:N檢索
3、動態(tài)抓取
4、性別模糊
5、年齡變化
6、信息孤島
7、光照、姿態(tài)、遮擋
8、相似性
9、圖片質(zhì)量問題
十、訓(xùn)練測試相關(guān)問題
1、欠擬合
定義:模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)
解決方法:
(1)添加其他特征項,有時候我們模型出現(xiàn)欠擬合的時候是因為特征項不夠?qū)е碌模梢蕴砑悠渌卣黜梺砗芎玫亟鉀Q。例如,“組合”、“泛化”、“相關(guān)性”三類特征是特征添加的重要手段,無論在什么場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。
?。?)添加多項式特征,這個在機器學(xué)習(xí)算法里面用的很普遍,例如將線性模型通過添加二次項或者三次項使模型泛化能力更強。例如上面的圖片的例子。
?。?)減少正則化參數(shù),正則化的目的是用來防止過擬合的,但是現(xiàn)在模型出現(xiàn)了欠擬合,則需要減少正則化參數(shù)。
(4)嘗試非線性模型,比如核SVM 、決策樹、DNN等模型。
2、過擬合
定義:模型把數(shù)據(jù)學(xué)習(xí)的太徹底,以至于把噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了,這樣就會導(dǎo)致在后期測試的時候不能夠很好地識別數(shù)據(jù),即不能正確的分類,模型泛化能力太差。例如下面的例子。
解決方法:
?。?)從產(chǎn)品角度
1)重新清洗數(shù)據(jù),導(dǎo)致過擬合的一個原因也有可能是數(shù)據(jù)不純導(dǎo)致的,噪音太多影響到模型效果,如果出現(xiàn)了過擬合就需要我們重新清洗數(shù)據(jù)。
2)增大數(shù)據(jù)的訓(xùn)練量,還有一個原因就是我們用于訓(xùn)練的數(shù)據(jù)量太小導(dǎo)致的,訓(xùn)練數(shù)據(jù)占總數(shù)據(jù)的比例過小。
?。?)從算法角度
1)交叉檢驗,通過交叉檢驗得到較優(yōu)的模型參數(shù);
2)特征選擇,減少特征數(shù)或使用較少的特征組合,對于按區(qū)間離散化的特征,增大劃分的區(qū)間;
3)正則化,常用的有 L1、L2 正則。而且 L1正則還可以自動進行特征選擇;
4)如果有正則項則可以考慮增大正則項參數(shù) lambda;
5)增加訓(xùn)練數(shù)據(jù)可以有限的避免過擬合;
6)Bagging ,將多個弱學(xué)習(xí)器Bagging 一下效果會好很多,比如隨機森林等.
7)標(biāo)注流程中遇到的問題