论文标题:Multi-view Face Detection Using Deep Convolutional Neural Networks

论文下载地址:http://arxiv.org/abs/1502.02766

代码下载地址: https://github.com/guoyilin/FaceDetection_CNN

论文简介:本文考虑的是多角度的人脸检测问题。在当前已经有很多这方面的工作,而当前最好的方法都需要对人脸关键点进行标注,如TSM,或者需要对人脸姿态进行标注,同时还需要训练十几个模型,从而能够在所有方向上抓取所有的人脸,例如HeadHunter方法中需要22个模型。而本文提出深度密度人脸检测(deep dense face detector,DDFD),不需要姿态或者关键点标注,而且能够用一个单一的模型区抓取各个方向上的人脸。而且不需要额外的组件,比如分割,候选框回归,或者SVM分类器等等。

论文贡献:首先准备数据对AlexNet网络进行微调,然后通过对正样本进行裁剪然后使用IOU超过50%的作为正样本填充,并通过随机翻转等打到了一共200K个正样本和20百万个负样本。然后统一缩放到227x227,并用来微调一个经过预训练的Alexnet。然后作者采用了划窗的方法,不断的从输入图片中提取图片块,先经过Alexnet做特征映射,然后将全连接层reshape成二维的,再通过一个人脸分类器。该人脸分类器是由一个5层CNN+3层全连接层组成的网络。个人认为,就是不断的划窗,然后对一堆窗口进行分类是否是人脸,然后再进行NMS。

论文指标:文中方法在AFW数据集上,AP为91.79

 

论文标题:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

论文下载地址:https://arxiv.org/abs/1604.02878

代码下载地址:https://github.com/pangyupo/mxnet_mtcnn_face_detection

论文简介:由于姿势、光照或遮挡等原因,在非强迫环境下的人脸识别和对齐是一项具有挑战性的问题。最近的研究显示,深度学习算法可以很好的解决上述的两个问题。在这篇文章中,利用检测和校准之间固有的相关性在深度级联的多任务框架下来提升它们的性能。尤其是,作者利用三层级联架构结合精心设计的卷神经网络算法,来对人脸进行检测和关键点的粗略定位。另外,作者建议使用一种新的在线采集样本策略来改善算法的性能。文中的方法与FDDB和WIDER FACE数据集上最先进的人脸检测算法进行对比,具有更高的精度。同时,与AFLW上人脸对齐算法比较,实时性能良好

论文贡献:在本文中,作者提出新的级联架构来整合多任务卷积神经网络学习的问题。该算法有三个阶段组成:第一阶段,浅层的CNN快速产生候选窗体;第二阶段,通过更复杂的CNN精炼候选窗体,丢弃大量的重叠窗体;第三阶段,使用更加强大的CNN,实现候选窗体去留,同时显示五个面部关键点定位。通过这个多任务学习框架,算法的性能可以显著提高。本文的主要贡献总结如下:(1)提出了一种新的级联CNNs框架,用于联合人脸检测和对齐,并仔细设计了轻量级CNN架构以实现实时性能。(2)提出一种有效的在线难样本挖掘方法来提高性能。(3)对具有挑战性的基准进行了大量的实验,与在面部检测和面部对准任务中最先进的技术相比,该方法显示出显著的性能改进。

论文指标:作者将文中方法与FDDB中的最新方法以及WIDER FACE中的最新方法进行了比较,ROC曲线中IOU为0.9504,Easy set情况下,AP为0.851,Medium set情况下AP为0.820,Hard set情况下,AP为0.607。

 

论文标题:FaceBoxes: A CPU Real-time Face Detector with High Accuracy

论文下载地址:https://arxiv.org/abs/1708.05234

代码下载地址: https://github.com/sfzhang15/FaceBoxes

论文简介:人脸检测的挑战主要来自两点:1)人脸在复杂背景图像中的多变性,检测器需要完成一个复杂的人脸有无问题的二分类;2)人脸位置和尺度的搜索空间较大,这就要求检测器的计算效率要高。这两点是有点相互矛盾的,因为高精度的人脸检测器通常计算量都是很大。怎么平衡这两者之间的矛盾,算法上主要有两条思路:第一条路就是基于手工设计特征,代表性检测器有基于 Adboost 的 Viola-Jones face detector 和 基于级联结构的 DPM ,但是这些方法过于依赖不鲁棒的手工设计的特征,各个模块分开优化,使得整个系统是次优的sub-optimal。 第二条路是最近几年基于深度学习CNN网络的人脸检测器。基于 CNN 的人脸检测虽然性能有较大提升,但是计算量太大。后来有学者提出 cascaded CNN 来 boost the performance and keep efficient。但是 cascaded CNN 有三个问题:1)检测的速度和图像中人脸数目有关,人脸越多,检测速度越慢。2)基于级联的检测器每个模块分开优化,导致模型的训练难度加大,得到 的模型是 sub-optimal,3)对于 VGA-resolution,cascaded CNN在 CPU上的速度是 14 FPS,没有得到实时。本文设计了一个CNN网络用于人脸检测,在速度和精度上实现了很好的平衡。

论文贡献:本篇论文主要贡献如下:1、设计了Rapidly Digested Convolutional Layers;2、引入了Mutiple Scale Convolutional Layers;3、为了提高小脸的召回率,提出了新的anchor densification strategy; 4、在I5 CPU上测试速度为38ms。

论文指标:本文方法能够在CPU上达到20FPS且获得最好得效果mAP为96,并且能够在单GPU上达到125fps。

 

论文标题:RetinaFace: Single-stage Dense Face Localisation in the Wild

论文下载地址:https://arxiv.org/abs/1905.00641

代码下载地址: https://github.com/deepinsight/insightface/tree/master/RetinaFace

论文简介:虽然在不受控制的人脸检测方面已经取得了巨大的进步,但是在wilder上准确有效的人脸定位仍然是一个公开的挑战。本文提出了一种鲁棒的single stage人脸检测器RetinaFace,它利用联合的额外监督和自监督多任务学习的优点,对不同尺度的人脸进行像素级定位。

论文贡献:在以下五个方面做出了贡献:(1)作者在WILDER FACE数据集中手工标注了5个人脸Landmark,并在这个额外的监督信号的帮助下,观察到在hard face检测的显著改善。(2)进一步添加自监督网格解码器(mesh decoder)分支,与已有的监督分支并行预测像素级的3D形状人脸信息。(3)在WILDER FACE hard测试集上,RetinaFace的平均精度(AP)比最先进的平均精度(AP)高出1.1%(达到AP = 91.4%)。(4)在IJB-C测试集上,RetinaFace使现有方法(ArcFace)能够改进人脸验证结果(FAR=1e-6, TAR=89.59%)。(5)采用轻量级backbone网络,RetinaFace可以在单个CPU核上实时运行vga分辨率图像。

 

论文标题:Finding Tiny Faces

论文下载地址:https://arxiv.org/abs/1612.04402

代码下载地址:https://github.com/cydonia999/Tiny_Faces_in_Tensorflow

论文简介:目标识别在最近几年里取得了很大的进展,但是小目标识别仍然没有很好的得到解决。本文针对小的人脸识别问题从三个角度探讨:尺度不变性、图像分辨率、上下文推理。尺度不变性是几乎是所有的目标检测和识别系统一个基本的期望属性,但是从实际的角度来看,尺度不变性只是一定图像分辨率范围内成立,例如识别3个像素高度的人脸和识别300像素高度的人脸利用的信息是不一样的。

论文贡献:针对尺度问题,目前常用的方法是使用尺度归一化分类器或者在 ROI 池化特征图上运行区域分类器。将区域尺寸归一化到一个标准尺寸,会面临一个简单的问题:标准尺寸应该是多大?一方面作者希望使用一个小的尺寸可以检测小的人脸,另一方面作者希望使用大尺寸可以分析人脸的细节特征来增加检测精度。与一个尺寸打天下相比较,作者分别训练不同尺度的检测器,但是这么做又会导致时间效率低下。为了解决上述问题,作者采用多任务方式下训练和运行多尺度分类器,充分利用各个网络卷积层特征图,这个方式对于大目标的检测效果很好,但是对于小目标的检测仍然不是很理想。关于小目标检测的问题,作者提出了两个见解。(1)如何从预训练的深度网络中最佳地提取尺度不变的特征。(2)虽然许多应用于“多分辨率”的识别系统都是处理一个图像金字塔,但作者发现在插值金字塔的最底层对于检测小目标尤为重要[5]。因此,作者的最终方法是:通过尺度不变方式,来处理图像金字塔以捕获大规模变化,并采用特定尺度混合检测器。 为了检测小人脸,作者对图像分辨率,对象尺度和空间上下文进行了深入分析。作者的算法在FDDB和WIDER FACE取得的state-of-the-art的效果。特别是,在WIDER FACE上,与现有技术相比,作者的结果将误差降低了2倍。

论文指标:本文方法以ResNet101为backbone,在Easy情况下mAP0.925,Medium情况下为0.914,Hard情况下为0.831

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐