人脸算法RetinaFace论文精读

发布时间:1714035922

RetinaFace的主要贡献

摘要
尽管在不受控制的人脸检测方面已取得了长足的进步,但是在wilder数据集进行准确有效的面部定位仍然是一个公开的挑战。本文提出了一种鲁棒的singlestage人脸检测器,名为RetinaFace,它利用额外监督extra-supervised)和自监督(self-supervised)结合的多任务学习multi-tasklearning),对不同尺寸的人脸进行像素级定位。具体来说,我们在以下五个方面做出了贡献:
1)我们在WILDERFACE数据集中手工标注了5个人脸关键点
Landmark),并在这个额外的监督信号的帮助下,观察到在hardface检测的显著改善。(2)进一步添加自监督网络解码器(meshdecoder分支,与已有的监督分支并行预测像素级的3D形状的人脸信息。(3)在WIDERFACEhard级别的测试集中,RetinaFace超出thestateoftheart平均精度(AP1.1%(达到AP=91.4%)。(4)在IJB-C测试集中,RetinaFace使stateoftheart方法(Arcface)在人脸识别中的结果得到提升(FAR=1e6TAR=85.59%)。(5)采用轻量级的backbone络,RetinaFace能在单个CPU上实时运行VGA分辨率的图像。FAR(FalseAcceptRate表示错误接受的比例TAR(TrueAcceptRate表示正确接受的比例
VGA分辨率320*240,目前主要应用于手机及便携播放器上1Introduction
人脸自动定位对许多应用而言都是人脸图像分析的前提步骤,例如人脸属性分析(比如表情,年龄)和人脸识别。人脸定位的狭义定义可以参考传统的人脸检测,其目的在没有任何尺度和位置先验的条件估计人脸边界框。然而,本文提出的人脸定位的广义定义包括人脸检测、人脸对齐、像素化人脸解析(pixel-wisefaceparsing)和三维密集对应回归(3Ddensecorrespondenceregression)。这种密集的人脸定位为所有不同的尺度提供了精确的人脸位置信息。
受到一般目标检测方法的启发,即融合了深度学习的最新进展,人脸检测最近取得了显著进展。与一般的目标检测不同,人脸检测具有较小的比例变化(1:11:1.5,但更大的尺度变化(从几个像素到数千像素目前moststate-of-the-art的方法集中于single-stage设计,该设计

密集采样人脸在特征金字塔上的位置和尺度,与two-stage方法相比,表现出良好的性能和更快的速度。在此基础上,我们改进了single-stage人脸检测框架,并利用强监督和自监督信号的多任务损失,提出了一种moststate-of-the-art的密集人脸定位方法。我们的想法如图1所示。

通常,人脸检测训练过程包含分类和框回归损失。chen等人观察到对齐人脸能为人脸分类提供更好的特征,建议在联合级联框架中结合人脸检测和对齐。由此启发,MTCNNSTN同时检测人脸和五个人脸landmark由于训练数据的限制,JDAMTCNNSTN还没有验证微小的人脸检测是否可以从额外的五个人脸Landmark的监督中获益。我们在本文中所要回答的问题之一是,能否利用由5个人脸关键点构成的额外监督信号,在WIDERFACEhard测试集上推进目前最好的性能(90.3%
MaskR-CNN中,通过添加一个用于预测目标Mask的分支,与现有的用于边界框识别和回归的分支并行,显著提高了检测性能。这证实了密集的像素级标注也有助于改进检测。遗憾的是,对于具有挑战性的人脸数据WIDERFACE,无法进行密集的人脸标注(以更多的Landmark或语义分。由于有监督的信号不易获得,问题是我们能否应用无监督的方法进一步提高人脸检测。
FAN中,提出了一种anchor-level注意力图(attentionmap)来改进遮挡人脸检测。然而,所提出的注意力图相当粗糙,不包含语义信息。近年来,自监督三维形态模型在wilder实现了很有前景的三维人脸建模。特别是Meshdecoder利用节点形状和纹理上的图卷积实现了超实时速度。然而,应用meshdecodersingle-stage检测的主要挑战是:(1相机参数难以准确去地估计,(2联合潜在形状和纹理表示是从

人脸算法RetinaFace论文精读

相关推荐