人脸识别:应用开启创新潮,算法进展才起步

作者:孙健微软亚洲研究院 。

近日,微软发布了一个有趣的应用程序——“微软我们”,只需要随意上传两张人的照片,就能知道他们长得有多像,比如测试你是不是长得像某个明星,或者夫妻/男朋友是否平等 。类似于前阵子风靡全球的How-Old.net,他们都巧妙地将人脸识别与社交网络中的人际交流结合起来 。虽然不能百分百准确,但高科技幽默的人际沟通和交流效果,可以说是人脸识别技术和社交网络发展到一定阶段的自然应用创新 。

开发人员可以使用基于云计算平台Azure的牛津项目API来实现许多有趣的想法 。作为一个提供人脸识别技术的中国研究团队,我们不仅要根据用户反馈快速迭代、细化API,还要从研究原点不断优化人脸识别算法 。

大量”阅读“照片学习辨识,深度学习成主流识别方式

【人脸识别:应用开启创新潮,算法进展才起步】 微软亚洲研究院在人脸识别领域耕耘了近20年 。从最早的子空间方法,到后来的局部描述子方法,再到现在的深度学习方法,我们经历了人脸识别技术的所有主流研究方法 。

上世纪八九十年代,人脸识别的误差比较大,应用领域非常有限,所以通常用在查验身份照片等特定领域 。当时的技术相当简单,图像通常经过简单的预处理后线性映射到高维向量空间 。由于缺乏线性模型能力,当时的识别准确率比今天差10倍左右 。

从2000年到2010年,局部描述子方法成为研究的主流 。它从人脸的局部区域(如眉、眼、鼻、口等)提取局部描述符 。),然后将它们线性或非线性地映射到高维向量空间 。与前一阶段的子空间方法相比,该方法的识别精度大大提高 。然而,由于功能和模型总是手动设计的,因此仍然存在一些限制 。

自2012年以来,深度学习方法在学术界得到了广泛应用 。深度神经网络训练的人脸识别算法大大提高了识别精度 。简而言之,就是让网络结构中预设了人脸识别先验知识的神经网络“读取”大量多人在各种环境(如光照、透视、表情)下拍摄的不同人脸照片,自动学习提取人脸各部位、各尺度的低、中、高级特征 。经过大量的研究,它可以根据提供的监管信息将不同的人分开 。

随着计算机技术的发展,廉价的PCGPU可以提供数千个并行计算单元,这使得深度学习在许多计算机研究领域异军突起,并取得了相当多的新研究方法 。

人脸识别的基础环节

How-Old.net和“微软我们”主要识别静态人脸照片,只使用了一小部分人脸识别技术 。一个完整的人脸识别系统可以自动检测和跟踪包含人脸的图片或视频流中的人脸,从而达到识别的目的,通常称为人像识别和人脸识别 。一般来说,人脸识别系统大致可以分为以下四个部分:

首先,检测面部的位置 。首先,我们应该确定脸在哪里,它的大小,位置等 。目前常用的是级联分类器,可以利用人工设计的特征模型或深度学习模式,一次筛选一个层次 。为了加快速度,我们可以在前期使用人工设计的特征模型快速筛选出不是人脸的部分,后期使用深度学习来精细判断每个留下的部分是否是人脸 。

其次,定位脸部和各个部位 。给脸后,鼻子、眼睛、嘴巴等 。都是确定的,这通常采用回归预测的方法 。回归有很多种,如随机森林法和深度学习法 。以深度学习为例,训练时告诉回归者眼睛在哪里,鼻尖在哪里,预测值和真值的距离越小越好 。基于此,不断调整回归的参数,用上千张人脸照片反复训练,直到回归能够准确输出人脸各个器官的准确位置信息 。

第三,人脸特征匹配与识别 。在这个过程中,将待识别的人脸特征与获得的人脸特征模板进行比较,根据细节层次判断人脸的身份信息 。使用深度学习方法可以大大简化这个过程,因为所有的特征匹配都是通过神经网络自动实现的,这也是目前最有效的识别方法 。

最后是人脸属性识别 。用户感兴趣的面部属性可能包括很多,比如年龄(在How-Old.net中使用)、性别、表情、种族、发型、是否戴眼镜、胡子的类型 。这种属性可以通过深度学习直接分类或回归 。

高识别率与用户体验

虽然经常听说在特定的评测数据库中,人脸识别算法的准确率已经超过了人类的识别率,但是在实际应用场景中,并没有通用的基准来衡量人脸识别算法的准确率 。对于不同的应用,识别率和用户体验由训练数据和算法决定 。

错误接受率是人脸识别中的一个重要指标 。一般错误接受率越低越好 。不能放错人进去,严格保证安全,但也可能意味着真实用户多次尝试刷脸都进不去,大大降低了最终的用户体验 。因此,在实际应用中,安全和用户体验之间的谨慎平衡是必须考虑的重要因素 。因此,当我们看到人脸识别应用的巨大进步时,我们仍然需要客观严谨地对待人脸识别算法,时刻提醒自己其局限性仍然存在,需要不断寻求更多更有效的方法对其进行改进 。

科学研究的每一个进步都会催生出各种各样的创新应用 。深度学习、社交网络和移动互联网的兴起相互交叉,人脸识别研究多年的积累,开启了人脸识别应用的创新浪潮,这些应用要么有趣,要么实用,肯定会越来越多 。也许在不久的将来,计算机将能够通过人类的表情和肢体语言来体验人类的喜怒哀乐 。

    推荐阅读