如上圖所示,不確定性從高質量和明顯的面部表情增加到低質量和微表情。這些不確定性通常導致不一致的標簽和不正確的標簽,這暫停了大規模面部表情識別(FER)的進展,特別是對于基于數據驅動的深度學習的FER。一般來說,具有FER不確定性的訓練可能會導致以下問題。首先,它可能導致不確定樣本的過度擬合,這可能是錯誤的標簽;第二,一個模型學習有用的面部表情特征是有害的;第三,高比例的不正確標簽甚至使模型在優化的早期階段不收斂。
Self-Cure Network
于是作者就提出了SCN,主要由三個關鍵模塊組成:self-attention importance weighting、rangking regularization和nosie relabeling。
在給定一批圖像的情況下,首先利用主干CNN提取人臉特征。然后,self-attention importance weighting模塊學習每個圖像的權重,以捕獲樣本重要度進行損失加權。不確定的面部圖像將被賦予較低的權重。接著,rangking regularization模塊將這些權重按降序排列,并將其分為兩組,并通過強制兩個組的平均權重之間存在margin來對這兩個組進行正則化(Rangk Regularization Loss(RR-Loss))。rangking regularization模塊確保第一個模塊學習有意義的權重來突出某些樣本(如:可靠的標注)和抑制不確定樣本(如:模糊的標注)。
最后一個模塊是careful relabeling模塊,它試圖通過將最大預測概率與給定標簽的概率進行比較來重新標記來自底層組的這些樣本。如果一個樣本的最大預測概率高于給定的帶有邊緣閾值的標簽,則將該樣本分配給一個偽標簽。此外,由于不確定的主要證據是不正確的/噪聲注釋問題,從互聯網上提取了一個極端噪聲的FER數據集,稱為WebEmotion,來研究SCN對極端不確定性的影響。
整個SCN可以端到端的方式進行訓練,并且可以很容易地添加到任何CNN的主干網絡中。
Self-Attention Importance Weighting
實際上就是采用一個含有FC層和sigmoid激活函數的網絡來對每個圖像預測權重,具體如下:
αi是第i個樣本的importance weight。
Rank Regularization
上述模塊中的 self-attention weights可以在(0,1)中任意值,為了明確地約束不確定樣本的重要性,作者精心設計了一個rank regularization模塊來正則化注意權重。在rank regularization模塊中,首先將學習到的注意權重按降序排序,然后將它們分成兩組,比率β。rank regularization保證了高重要群體的平均注意權重高于具有margin的低重要群體。在形式上為此定義了一個rank regularization損失(RR-Loss),如下所示:
Relabeling
在rank regularization等模塊中,每個小批量被分成兩組,即高重要性和低重要性群體。實驗發現,不確定的樣本通常具有較低的重要性權重,因此一個直觀的想法是設計一種重新標記這些樣本的策略。具體跑代碼的試驗參數設置,后期我們講解實踐的時候,一起說,這次我們先說說作者的實驗結果及分析。
實驗結果分析
Visualization of the learned importance weights in SCN
在synthetic noisy FER數據集中的評價如下:
WebEmotion數據集
在WebEmotion數據集中預訓練的影響如下:
Evaluation of the margin δ1 and δ2, and the ratio β on the RAF-DB dataset
今天我們推送一篇關于人臉識別的文獻,目前被CVPR2020錄為最佳人臉識別框架之一。這次“計算機視覺研究院”簡潔給大家分析,后續我們會分享具體代碼實現功能,有興趣的同學請持續關注
概述
從事人臉領域的你,都知道:由于面部表情的模糊性、圖像的低質量以及注釋者的主觀性,對大規模面部表情數據集進行標注是非常困難的事情。
這些不確定性成為了深度學習時代大規模面部表情識別的關鍵挑戰之一。為了解決這個問題,本次投稿的作者提出了一種簡單而有效的Self Cure Network(SCN),它能有效地抑制不確定性,防止深度網絡對某些面部圖像的過度擬合。具體來說,主要通過兩種方法:
小批量上的自注意力機制(self-attention machanism),對每個訓練樣本加權,進行等級正則化(ranking regularization);
仔通過細的重新標注機制(careful relabeling machanism),在排名最低的組中修改這些樣本的標簽。
簡單說下背景
面部表情是人類傳達情感狀態和意圖的最自然、最有力和最普遍的信號之一。自動識別面部表情對于幫助計算機理解人類行為并與其交互也很重要。在過去的幾十年里,研究人員利用算法和大規模數據集在面部表情識別(FER)方面取得了重大進展,在實驗室或野外可以收集數據集,如CK+、MMI、Oulu-CASIA、SFEW/AFEW、FERPlus、EmotioNet、RAF-DB等。
然而,對于從互聯網上收集的大規模FER數據集,由于注釋者的主觀性以及模糊的野外面部圖像所造成的不確定性,極難高質量地進行注釋。
本文來源:IT精英團--不確定性抑制用于大規模人臉表情識別,CVPR2020 |
本文地址:http://www.njgybxg.com/news/166512866162746.html
版權聲明:本文采用[BY-NC-SA]協議進行授權,如無特別說明,轉載請注明本文地址!