|
|
51CTO旗下网站
|
|
移步端
  • 面识别技术总结:副传统艺术到深度学习

    在这篇论文中,咱们对流行的脸识别方法进行了圆满且最新的文献总结,其中既包括传统艺术(基于几何的主意、完全方法、基于特征的主意和混合方法),也有深度学习方法。

    笔者:机械的心Pro 来源:当日第一| 2019-12-27 16:20

    贝宁共和国赫特福德大学与 GBG Plc 的研究员近日公布了一篇综述论文,对面识别方法进行了圆满的梳理和总结,其中涵盖各种传统艺术和现在风头正盛的吃水学习方法。机械的心重点编译介绍了其中的吃水学习方法部分,更多有关传统人脸识别方法的情节请参阅原论文。

    面识别技术全面总结:副传统艺术到深度学习

    舆论地址:https://arxiv.org/abs/1811.00116

    自七十年代以来,面识别已经化为了微机视觉和生物识别领域被研究最多的主题之一。基于人工设计的性状和风俗机器学习技术之习俗艺术最近已把运用特别大型的多寡集训练的吃水神经网络取代。在这篇论文中,咱们对流行的脸识别方法进行了圆满且最新的文献总结,其中既包括传统艺术(基于几何的主意、完全方法、基于特征的主意和混合方法),也有深度学习方法。

    引言

    面识别是指能够识别或验证图像或视频中的主体的位置的技艺。首个面识别算法诞生于七十年代初 [1,2]。自那以后,它们的灵敏度已经大幅提升,如今相比于指纹或虹膜识别 [3] 等传统上把认为更加稳健的古生物识别方法,人人往往更偏爱人脸识别。让面部识别比其他生物识别方法更受欢迎的一大不同的处是面识别本质上是非侵入性的。比如,指纹识别需要用户将手指按在新石器上,虹膜识别需要用户与相机靠得很近,语音识别则要求用户大声说话。对比,近代人脸识别系统仅需要用户处于相机的视野内(假设他们与相机的距离也成立)。这使得人脸识别成为了对客户最友好的古生物识别方法。这也意味着人脸识别的潜在利用范围更广大,因为他也可把布置在他家不指望与系统合作之气氛中,比如监控体系中。面识别的其他常见应用还包括访问控制、欺诈检测、身份认证和社交媒体。

    顶被布置在无约束条件的气氛中时,出于人脸图像在实际世界中的呈现具有莫大的掠夺性(这类人脸图像通常被称为自然人脸(faces in-the-wild)),故此人脸识别也是最有代表性的古生物识别方法之一。面图像可变的中央包括头部姿势、年龄、遮挡、辉映条件和人脸表情。希冀 1 送出了那些情形之示范。

    面识别技术全面总结:副传统艺术到深度学习

    希冀 1:在自然人脸图像中找到的杰出变化。(a)头部姿势,(b)年龄,(c)辉映,(d)面表情,(e)遮挡。

    面识别技术这些年已经发生了重在的转移。风艺术依赖于人工设计的性状(比如边和纹理描述量)与机器学习技术(比如主成分分析、线性判别分析或支持向量机)的结合。事在人为设计在无约束环境中对不同变化情况稳健的性状是很艰难之,这使得过去的研究员侧重研究针对每种变化类型的专用方法,比如能应对不同年龄的主意 [4,5]、能应对不同姿势的主意 [6]、能应对不同光照条件的主意 [7,8] 等。近段日子,风的脸识别方法已经把基于卷积神经网络(CNN)的吃水学习方法接替。深度学习方法的首要优势是它们可用非常大型的多寡集进行训练,故而学习到表征这些数据的超级特征。网络上试用之大度自然人脸图像已让研究者可收集到周边的脸数据集 [9-15],该署图像包含了真实世界中的各种变化情况。采用这些数据集训练的基于 CNN 的脸识别方法已经实现了特别高的灵敏度,因为它们能够学到面图像中稳健的性状,故而能够应对在训练过程中采用的脸图像所呈现出的真实世界变化情况。另外,深度学习方法在电脑视觉方面的不断普及也在加快人脸识别研究之上进,因为 CNN 也正把用于解决许多其它计算机视觉任务,比如目标检测和辨识、分割、和合学字符识别、面表情分析、年龄估计等。

    面识别系统通常由以下构建模块组成:

  • 面检测。面检测器用于寻找图像中人脸的岗位,如果有人脸,就返回包含每张人脸的境界框的坐标。如图 3a 所示。
  • 面对齐。面对齐的目标是采取一组位于图像中稳定位置的参考点来缩放和裁剪人脸图像。其一过程通常需要采取一个特征点检测器来寻找一组人脸特征点,在简练的 2D 对齐情况中,即为寻找最恰当参考点的超级仿射变换。希冀 3b 和 3c 展示了两张采用了同一组参考点对齐后之脸图像。更复杂的 3D 对齐算法(如 [16])还能实现人脸正面化,即将人脸的架势调整到正面向前。
  • 面表征。在人脸表征阶段,面图像的像素值会把更换成紧凑且可判别的性状向量,这也把称为模板(template)。优秀情况下,同一个主导的一切人脸都应当映射到相似之性状向量。
  • 面匹配。在人脸匹配构建模块中,两个模板会进展比较,故而得到一个相似度分数,该分数给出了双方属于同一个主导的可能。
  • 面识别技术全面总结:副传统艺术到深度学习

    希冀 2:面识别的构建模块。

    有的是人口觉得人脸表征是面识别系统中最重要的组件,这也是资产论文第二节所关切的基本点。

    面识别技术全面总结:副传统艺术到深度学习

    希冀 3:(a)面检测器找到的境界框。(b)和(c):对齐后之人数脸和参考点。

    深度学习方法

    卷积神经网络(CNN)是面识别方面最常用的一类深度学习方法。深度学习方法的首要优势是适用大量数目来训练,故而学到对训练数据中出现的转移情况稳健的脸表征。这种方式不需要设计对不同门类的类内差异(比如光照、姿势、面表情、年龄等)稳健的一定特征,而是可以下训练数据中学到它们。深度学习方法的首要短板是它们需要采取特别大的多寡集来训练,而且这些数据集中需要包含足够的转移,故而可以泛化到未曾见过的样本上。侥幸的是,一部分包含自然人脸图像的广大人脸数据集已把公开 [9-15],可把用来训练 CNN 模型。除了学习判别特征,神经网络还可以降维,并可把教练成绩分类器或利用度量学习方法。CNN 把认为是头到头可训练的体系,不要与其他其他特定方法结合。

    用于人脸识别的 CNN 模型可以运用不同之主意来训练。其中之一是将该问题当作是一番分类问题,训练集中的每股中心都对应一个类别。训练完后,可以通过去除分类层并将之前层的性状用作人脸表征而将该模型用于识别不存在于训练集中的侧重点 [99]。在深度学习文献中,该署特色通常被称为瓶颈特征(bottleneck features)。在这第一个训练阶段之后,该模型可以运用其它技术来进一步训练,认为目标应用优化瓶颈特征(比如使用联合贝叶斯 [9] 或利用一个不同之损失函数来微调该 CNN 模型 [10])。另一种学习人脸表征的选用方法是通过优化配对的脸 [100,101] 或人脸三元组 [102] 之间的距离度量来直接学习瓶颈特征。

    采用神经网络来做人脸识别并不是什么新思想。1997 年就有研究者为人脸检测、眼部定位和人脸识别提出了一种名为「基于概率决策的神经网络(PBDNN)」[103] 的前期方法。这种人脸识别 PDBNN 把分为了每一个训练主体一个全连接子网络,以降低隐藏单元的多寡和避免过拟合。研究者使用密度和沿特征分别训练了两个 PBDNN,下一场将它们的进出口组合起来得到最终分类决定。另一种早期方法 [104] 则组合使用了自组织映射(SOM)和卷积神经网络。自组织映射 [105] 是一类以现代化监督措施训练的神经网络,可将落入数据映射到更低维的蓝天,同时也能保留输入空间的拓扑性质(即在原有空间中相近的涌入在进出口空间中也相近)。瞩目,这两种早期方法都不是以端到头的措施训练的([103] 官方采用了边特征,[104] 官方采用了 SOM),而且提出的神经网络架构也都很浅。[100] 官方提出了一种端到头的脸识别 CNN。这种方式使用了一种生产式架构,并利用了一番相比损失函数 [106] 来开展训练。其一对比损失使用了一种度量学习流程,他目标是最小化对应同一主体的性状向量对之间的距离,同时最大化对应不同主体的性状向量对之间的距离。该方法中采用的 CNN 架构也很浅,且训练数据集也较小。

    地方提到的主意都不能取得实质性的结晶,重点原因是采取了力量欠缺的网络,且训练时能用之多寡集也相对较小。直到那些模型得到扩大并利用大量数目 [107] 训练后,用于人脸识别的首个深度学习方法 [99,9] 才达到了现阶段最佳水平。尤其值得一提的是 Facebook 的 DeepFace [99],这是最早的用于人脸识别的 CNN 办法之一,他使用了一番能力很强的模子,在 LFW 谱上实现了 97.35% 的灵敏度,名将之前最佳表现的产销率降低了 27%。研究者使用 softmax 损失和一个包含 440 万张脸部(来自 4030 个重点)的多寡集训练了一番 CNN。资本论文有两个全新的孝敬:(1)一度基于明确的 3D 面建模的迅猛的脸对齐系统;(2)一度包含局部连接的层的 CNN 架构 [108,109],该署层不同于健康的卷积层,可以下图像中的每个区域学到不同之性状。在那同时,DeepID 系统 [9] 穿过在图块(patch)上训练 60 个不同之 CNN 而得到了相近的结果,该署图块包含十个区域、三种比例以及 RGB 或灰度通道。在测试阶段,会从每个图块提取出 160 个瓶颈特征,增长她水平翻转后的状况,可形成一个 19200 维的性状向量(160×2×60)。类似于 [99],新提出的 CNN 架构也采取了一部分连接的层。他验证结果是通过在这种由 CNN 提取出的 19200 维特征向量上训练一个联合贝叶斯分列器 [48] 得到的。训练该系统所采取的多寡集包含 202599 张脸图像,来自 10177 位社会名流 [9]。

    对于基于 CNN 的脸识别方法,影响准确度的要素主要有三个:训练数据、CNN 架构和损失函数。因为在大部分深度学习应用中,都要求大训练集来防止过拟合。通常,为分类任务训练的 CNN 的灵敏度会随每类的样本数量之增强而提升。这是因为当类内差异更多时,CNN 模型能够学习到更稳健的性状。但是,对于人脸识别,咱们感觉兴趣的是提取出能够泛化到训练集中未曾出现过的侧重点上的性状。故此,用于人脸识别的多寡集还要求包含大量主导,这样模型也能学习到更多类间差异。[110] 研讨了多少集中主体的多寡对面识别准确度的影响。在这项研究中,第一以降序形式按照每个中心的图像数量对一个大数量集进行了排序。下一场,研究者通过逐渐增大主体数量而采取训练数据的不同子集训练了一番 CNN。顶使用了图像数量最多的 10000 个重点进行训练时,得到的灵敏度是最高的。增长更多主体会降低准确度,因为每个额外主体可用之图像非常少。另一项研究 [111] 研讨了更宽度之多寡集更好,还是更深度的多寡集更好(如果一个数目集包含更多主体,则认为他更宽;类似地,如果每个中心包含的图像更多,则认为他更深)。这项研究总结到:如果图像数量相等,则更宽的多寡集能得到更好的灵敏度。研究者认为这是因为更宽度之多寡集包含更多类间差异,故此能更好地泛化到未曾见过的侧重点上。表面 1 展示了少数最常用于训练人脸识别 CNN 的明白数据集。

    面识别技术全面总结:副传统艺术到深度学习

    表面 1:公开的广大人脸数据集。

    用于人脸识别的 CNN 架构从这些在 ImageNet 科普视觉识别挑战赛(ILSVRC)上显示出色的架构上取得了众多灵感。举个比喻,[11] 官方采用了一番带有 16 层的 VGG 网络 [112] 本子,[10] 官方则采取了一番相似但更小的网络。[102] 官方探索了两种不同门类的 CNN 架构:VGG 作风的网络 [112] 和 GoogleNet 作风的网络 [113]。即使这两种网络实现了方便的灵敏度,但 GoogleNet 作风的网络的底数数量少 20 倍。更近段日子,残差网络(ResNet)[114] 已经化为了众多目标识别任务的最受偏爱的取舍,其中包括人脸识别 [115-121]。ResNet 的首要创新点是引入了一种使用捷径连接的构建模块来学习残差映射,如图 7 所示。捷径连接的采取能让研究者训练更深度的架构,因为它们有助于跨层的消息流动。[121] 对不同之 CNN 架构进行了圆满的研讨。在清晰度、速度和模型大小之间的超级权衡是采取带有一个残差模块(类似于 [122] 官方提出的某种)的 100 层 ResNet 得到的。

    面识别技术全面总结:副传统艺术到深度学习

    希冀 7:[114] 官方提出的原有的残差模块。

    慎选用于训练 CNN 办法的损失函数已经化为近来人脸识别最活跃的研讨领域。即使采用 softmax 损失训练的 CNN 已经非常成功 [99,9,10,123],但也有研究者认为使用这种损失函数无法很好地泛化到训练集中未出现过的侧重点上。这是因为 softmax 损失有助于学习能增大类间差异的性状(以便在训练集中区别不同之类),但不一定会降低类内差异。研究者已经提出了部分能缓解这一问题的主意。多极化瓶颈特征的一种简易方法是采取判别式子空间方法,比如联合贝叶斯 [48],就像 [9,124,125,126,10,127] 官方所做的那样。另一种办法是采取度量学习。比如,[100,101] 官方采用了杂交的对待损失来作为唯一的监察信号,[124-126] 官方还结合使用了分类损失。面识别方面最常用的心地学习方法是新年组损失函数 [128],最早在 [102] 官方把用于人脸识别任务。新年组损失的对象是以稳定余量分开正例对之间的距离和负例对之间的距离。副哲学形式上讲,对于每个三元组 i,要求满足以下条件 [102]:

    面识别技术全面总结:副传统艺术到深度学习

    其中 x_a 是锚图像,x_p 是同一主体的图像,x_n 是另一番不同主体的图像,f 是模型学习到的光照关系,α 施加在正例对和负例对距离之间的产量。在实践中,采用三元组损失训练的 CNN 的收敛速度比使用 softmax 的慢,这是因为需要大量新春组(或对比损失中的配对)才能覆盖整个训练集。尽管这个题目得以通过在训练阶段选择困难之新年组(即违反余量条件的新年组)来轻松 [102],但广大的作法是在先后一个训练阶段采取 softmax 损失训练,在第二个训练阶段采取三元组损失来对瓶颈特征进行调整 [11,129,130]。研究者们已经提出了新年组损失的组成部分变体。比如 [129] 官方采用了点积作为相似度度量,而不是欧几里德相差;[130] 官方提出了一种概率式三元组损失;[131,132] 官方提出了一种修改版的新年组损失,他也能最小化正例和负例分数分布的正式差。用于学习判别特征的另一种损失函数是 [133] 官方提出的中坚损失(centre loss)。基本损失的对象是最小化瓶颈特征与它们对应类别的中坚之间的距离。穿过使用 softmax 损失和主导损失进行合并训练,结果表明 CNN 读书到的性状能够有效增大类间差异(softmax 损失)和降低类内个体差异(基本损失)。相比之下于对比损失和春节组损失,基本损失的长处是更便捷和更容易实现,因为他不需要在训练过程中构建配对或三元组。另一种相关的心地学习方法是 [134] 官方提出的框框损失(range loss),这是为改善使用不平衡数据集的教练而提出的。规模损失有两个零件。类内的损失组件是最小化同一类样本之间的 k-最大距离,而类间的损失组件是无每个训练批中最近的两个类中心之间的距离。穿过使用这些极端案例,规模损失为每个类都使用同样的消息,而不管每个项目中有好多样本可用。类似于中心损失,规模损失需要与 softmax 损失结合起来以避免损失降至零 [133]。

    顶结合不同之损失函数时,会出现一个困难,即寻找每一项之间的科学平衡。近些年一段日子,已有研究者提出了几种修改 softmax 损失的主意,这样她无需与其他损失结合也能学习判别特征。一种已把证明可以增加瓶颈特征的鉴别能力的主意是特征归一化 [115,118]。比如,[115] 谈起归一化特征以具有单位 L2 范数,[118] 谈起归一化特征以具有零年产值和单位方差。一度成功之主意已经在 softmax 损失中每类之间的裁决边界中引入了一番余量 [135]。为了简单,咱们介绍一下用到 softmax 损失进行二元分类的状况。在这种情况下,每类之间的裁决边界(如果偏置为零)可由副式给定:

    面识别技术全面总结:副传统艺术到深度学习

    其中 x 是特征向量,W_1 和 W_2 是回答每类的权重,θ_1 和 θ_2 是 x 离别与 W_1 和 W_2 之间的力度。穿过在上式中引入一个乘法余量,这两个决策边界可以变得更加严峻:

    面识别技术全面总结:副传统艺术到深度学习

    如图 8 所示,其一余量可以有效地增大类别之间的区别程度以及各自类别之内的紧密性。根据将该余量整合进损失的措施,研究者们已经提出了多种备用方法 [116,119-121]。比如 [116] 官方对权重向量进行了归一化以具有单位范数,这样使得决策边界仅取决于角度 θ_1 和 θ_2。[119,120] 官方则提出了一种加性余弦余量。相比之下于乘法余量 [135,116],加性余量更容易实现和多元化。在这项工作中,除了归一化权重向量,特色向量也如 [115] 官方一样进行了归一化和比重调整。[121] 官方提出了另一种加性余量,他既有 [119,120] 那样的长处,还有更好的若干解释方式,因为这个余量是加在灵敏度上的,而不是未知数上。表面 2 总结了有定量之 softmax 损失的不同变体的裁决边界。该署办法是面识别领域的眼前最佳。

    面识别技术全面总结:副传统艺术到深度学习

    希冀 8:在两个项目之间的裁决边界中引入一个余量 m 的功力。(a)softmax 损失,(b)有定量之 softmax 损失。

    面识别技术全面总结:副传统艺术到深度学习

    表面 2:有定量之 softmax 损失的不同变体的裁决边界。瞩目这些决策边界针对的是二元分类案例中的类别 1。

    【编纂推荐】

    1. 如何通过必发娱乐手机版和大数量改变客户之旅
    2. 2020年值得关注的7大必发娱乐手机版趋势
    3. 你真的询问必发娱乐手机版(AI)吗?必发娱乐手机版将来会让许多人失业吗?
    4. 开拓2020年必发娱乐手机版的科学姿势,百度研究院发布十大科技趋势预测
    5. 这家AI商店用面具破解中国人脸识别系统!微信、支付宝、火车站无一幸免
    【义务编辑: 庞桂玉 TEL:(010)68476606】

    点赞 0
  • 面识别  深度学习  必发娱乐手机版
  • 分享:
    大家都在看
    猜你喜欢
  • 订阅专栏+更多

    云架构师修炼手册

    云架构师修炼手册

    云架构师之必不可少技能
    共3章 | Allen在路上

    18人口订阅学习

    Devops的监控神器Prometheus

    Devops的监控神器Prometheus

    监督主流
    共22章 | 小罗ge11

    169人口订阅学习

    手把手玩转Elasticsearch

    手把手玩转Elasticsearch

    Chandler_珏瑜
    共20章 | Chandler_珏瑜

    80人口订阅学习

    读 书 +更多

    系统分析师技术指南

    资本书对内地而又成熟的系统分析技术和方式进行了座谈,包括CMM与过程改进、J2EE与��NET平台、中间件及相关技术、使用服务器、Web 劳务、数量...

    订阅51CTO邮刊

    点击这里查看样刊

    订阅51CTO邮刊

    51CTO劳务号

    51CTO官微