首頁|台灣區電機電子工業同業公會

為瞭解決這種現實無約束場景下影響人臉識別精度的類似問題，演算法端需要做很多的針對性的工作。其中，主要以如何實現非正面角度下人臉對齊為重，即實現人臉識別的正面化修正。有受訪企業發言人對記者介紹：“目前，業內在顯示人臉對齊方面的工作主要有幾大類，第一個就是SPAE，這是一種採用自動標定AutoIncoder的網路將人臉識別進行正面化的操作，提升人臉識別模型在大姿態應用下的魯棒性。考慮到單個網路很難很好的將不同的大姿態人臉進行矯正，這個工作就提出了使用多個堆疊的網路將側面姿態的人臉逐步矯正到一個正面的姿態。”
具體來講，這種方法是將採集到的90度人臉預先通過一個AutoIncoder網路轉到60度，然後再從60度轉到45度，通過這種方式逐步將有角度的人臉圖像轉換成正面的人臉圖像，實現人臉圖像的正面對齊。不過，這種方案也有缺陷，該受訪人認為：“它的不足之處在於，沒有把人臉識別特徵的表示和人臉正面化的過程同時考慮到，來進行整體化的學習。”
而另外一種，則是通過生成對抗網路設計帶有編碼和解碼能力的網路模型，來提高在現實情況下人臉識別精度。其中，編碼器的輸入是任意姿態的人臉，解碼器的輸出就是網路生成的特定姿態的人臉，生成器的輸入是人臉圖像，包括姿態編碼和隨機雜訊。這個工作雖然會生成一張任意姿態的人臉，該受訪人解釋到：“但是它在做人臉識別的時候是採用姿態解耦和特徵向量來進行姿態識別的，然後在人臉識別的精度方面也有了一定的提升。它的核心出發點就是要把人的身份資訊特徵和表示人姿態的特徵進行解耦，解耦以後得到了帶有身份資訊的模型就更適合做人臉識別。”
第三種方案則是LDF，這也是一個顯示人臉正面化的方法。該受訪人進一步補充到：“這個工作也是從學習偏移場出發，並結合深度學習網路，實現了姿態魯棒的人臉識別。LDF分兩個階段，第一個階段是學習一個從側面到正面姿態的偏移場，這也是通過卷積神經網路來學習的，通過偏移場進行網路的初始化，在得到正面的人臉之後，第二個階段就是使用卷積神經網路進行特徵的表達，而這兩個部分，都是通過端到端來進行訓練。”
但在張傑看來，上述方案或多或少都有自身的缺陷，而且流程繁瑣，不適宜廣泛化的推廣普及。中科視拓則採用的是特徵層上的人臉對齊方案，張傑表示：“我們考慮到人臉識別最終用的是特徵，因此我們把特徵層面的對齊和人臉識別特徵的抽取進行學習。和之前介紹的方案相比，我們的方法不需要恢復正面的人臉，而且可以處理任意姿態下的人臉識別的問題，在測試過程中我們也是不需要姿態資訊進行輸入的。”
那麼，如何在特徵層面進行人臉對齊呢？張傑認為：“傳統的方案用在物體檢測上面，比如貓和狗都是非剛性的物體，而人臉則是剛性的，具有很強的結構性，考慮到人臉的結構性，我們就考慮到學習偏移場的時候方向上也需要有一致性，為此，我們提出了DFN方法，設計的偏移場生成器從淺層特徵上跟人臉進行對齊的。和上述不一樣的是，我們是在特徵層面上進行對齊的，不需要使用偏移場去對齊，省去了很多繁瑣的流程。同時配以損失函數，一起作用之後就能實現不同特徵下的人臉對齊。一般來說，在90度的條件下，人臉正面化的效果可能就不太理想，但由於我們是在特徵層面上進行識別的，因此在90度的角度下，結果顯示我們的方案取得了很好的效果。這種方法不僅擁有更強的特徵一致性，而且在一定程度上還能夠解決姿態對人臉識別精度的影響，同時還一併能夠支援姿態資訊對模型進一步擴展，模型精度也有了進一步的提升空間。”
不過，在解決因實際場景中人臉姿態造成的精度問題上，任何一種方案的實際效果仍有待市場和應用端的長期檢驗。畢竟，正面人臉生成過程中的處理方法各不相同，即使再具優勢的方案，不同場景和環境下的表現也會迥異，甚至某些情況下還會出現能夠還原出一張完整漂亮的人臉，卻並不一定是能夠進行正確識別的問題。更何況，拋去精度以外，人臉識別在實際場景中還有更多更現實的問題，比如多場景下的資料獲取和難以獲取清晰資料等等，這也是人臉識別演算法提供商未來需要長期耕耘和攻堅的方向。因為，隨著網路結構的不斷強化，未來市場必定需要更具魯棒性的演算法方案。如何利用現有的2D技術結合3D方案，提升人臉識別的精度和準確性，向全3D人臉識別方向過渡，才是真正實現高精度人臉識別大規模實用化的最佳路線。