格灵深瞳赵勇：AI将如何影响和变革安防行业？ - 第4页 - 安防知识网

人脸识别的真实现状

　　四、人脸识别的真实现状

　　接下来我想给大家讲讲人脸识别的现状和进展。

　　这里面有一种分裂，怎样一种分裂呢?

　　一些人工智能公司宣传，他们一般都会把人脸识别的性能吹得非常悬，说错误率已经达到亿分之一的程度等等。虽然这是事实，的确有时候我们发现有一些识别错误率已经低于亿分之一，但这是有前提的，譬如说静态人脸识别：如摆拍等。

　　还有一种场景是门禁的应用，人们为了过一个通道，然后就盯着摄像头，这时候成像条件都很好。但是对安防而言，更多时候被观测的对象没有意识到自己被观测，它的角度也不是很理想，离相机也比较远，光照也比较复杂。而且整个目标在运动中碰到照片时，它的人脸识别结果也完全不一样了。

　　很多公司认为人脸识别已经做得很好，但另一方面，如果大家去调查一下如果使用了人脸识别，尤其是使用动态人脸识别的客户，大多数客户都认为误报率太高，而且高到基本上这个系统就没有办法使用。

　　1、是人脸技术不好，还是大家在撒谎?

　　今天趁这个机会，我也想非常坦诚地跟大家分享一下这里面的原因。到底是人脸识别技术还不够好，还是大家在撒谎。

　　做人脸识别它的优点是速度快，一张显卡每秒钟可产生几百张脸的特征，完成数千万张脸的比对，这个目前已经可以做到了。它的成本也低，使得这项技能可以快速复制、大规模地部署，性能很稳定且可持续提升。人工智能的缺点是应对复杂问题应对能力差，除此之外是对环境变化的适应能力弱。

　　人类的智能跟人工智能相比，几乎是完全相反的。

　　人类智能的优点正好是人工智能的缺点，人类对复杂问题的应对能力和对环境变化的适应能力很强，但缺点就是速度慢、成本高，比较难快速复制、不大可能大规模地部署、性能也不稳定(容易受到精神状态的影响)。

　　2、1比1的人脸验证

　　我们来看一下人工智能的不同应用，先介绍下1:1的人脸验证。

　　在金融支付领域里面，有些公司开发的软件帮助客户去验证用户的身份。这类应用本质上是在回答一个问题。客户的摄像头拍一张照片，然后将照片传到后台，后台知道验证的对象是谁，并且有验证对象的身份证照片。那么它要回答的问题是“这两个人是同一个人吗?”，答案是“是”或者“否”。所以总共回答这么一个问题。

　　3、1比N的人脸识别(静态人脸比对)

　　我们再来看一下1：N的人脸的识别，也叫静态人脸对比。

　　假如客户选择一张照片，然后他拥有N个人的对比库。举个例子，比如在某个省的公安厅，这个省有5000万个有身份证的公民。这时候警方看到一个嫌疑人想调查这个人的身份，这个人是谁?

　　在做这件事情的过程中，事实上人脸识别就要回答很多问题。这个人是张三吗?这个人是李四吗?是王五吗?然后它要回答N个问题，可能还有一个最困难的问题也就是第N+1个问题：这个人可能谁都不是。这就叫静态人脸比对。很显然，与人脸验证相比，静态人脸比对就是更为复杂的问题。因为它总共要回答的问题总数是N+1个，当这个N比较大的时候，问题回答的难度和出错误几率就大大提升。

　　但静态人脸比对使用的频率比较低，只有当客户要做一次搜索时它才会使用。它使用的场景允许用户参与交互和确认。简单说就像一个搜索引擎，我在搜索结果里挑一个我认为对的，或者是我把搜索结果呈现的前几名看上去都很像，分别调查后能够快速帮客户缩小调查范围。

　　这种产品在过去一、两年内的推广也比较快，而且可用性相对较高。

　　4、M比N人脸识别(动态人脸比对)

　　我们再往下看来看一下M比N的人脸识别，通常这个叫动态认识。

　　何为动态人脸识别?就是客户安装的摄像头每看到一个人后，就在一个库里去比对这个人是谁，“M”代表的就是摄像头，或者网络里所有摄像头抓到的人脸数目。“N”就是对比库中的目标数目，抓到的每一张脸都得“问”一遍：这是张三吗?是李四吗，那真的是王五吗?然后对于这个人你要问N+1个问题。对于看到所有M个人，问题的总数也就是M×N+1个。而且动态人脸使用频率非常高，因为它是一个全自动体系。

　　以北京地铁站为例，我听说北京1000多个地铁站里面平均每站都有上百个摄像头，如果这里面100个摄像头每个地铁站流通8到10万人是很常见的，可能在一些比较繁忙的地铁站有上百万人。

　　对于看到的每一个人都要回答N+1个问题，如果这个N是一个很大的库，比如是一个拥有十几万人的全国逃犯数据库，这就是一个天文数字。而且在这个使用场景中，它不存在用户交互，客户期待你最后产生报警，而且这个警报是值得信赖的。

　　我们先来看一下这个问题：

　　一台动态人脸抓拍机每天产生以下问题：首先假设每个相机每天看见1万张脸，在很多公共场所这并不是一个很夸张的假设。

　　我们假设对比库里有1万个目标，这可能对公安来说也不是一个大的目标库。如果基于该假设的话，这个相机每天要回答的问题就是一亿零一万个。如果人工智能每回答100万个人脸比对问题就犯一个错误，那么每一天在每一台相机上就会犯100个错误，也就是产生100个误报或者漏报。

　　我刚才假设每回答100万个问题才会犯一个错误，其实也是非常夸张的假设，因为在动态人脸识别里，很多时候人的面孔角度是不理想的，分辨率也不一定很理想，光线可能也不是很好，还可能有运动模糊。

　　这种情况下，如果哪个公司真的可以达到百万分之一的错误率，我相信已经非常优秀。我们想象一下，如果一个大客户装了1000台人脸识别相机，坦率来讲1000台量也不是很大，跟今天城市里已经存在的摄像头数量相比并不多。

　　这时候系统每天要回答1000亿个问题，如果人工智能回答100万个问题就会犯一个错误，那么客户每天就会收到100万个错误，也就是100万个误报或者漏报。我们想象一下当一个客户每天会收到100万个报警时，他会怎么办?那它肯定会崩溃的，因为这个系统根本不能用。而1000台1万个库的目标，每个摄像头每天看1万个面孔，这些假设也根本不是一个很苛刻的假设。

　　5、人脸识别解决公共安全问题仍然微不足道

　　我们能够意识到人脸识别尽管在过去几年有着巨大进展，可以在金融领域做身份验证，但它对解决公共安全问题来说是仍然微不足道的。

　　这个事实说明人脸识别技术不够好吗?我觉得也不尽然。人脸识别技术今天已确定超越人类。科学实验数据称，正常人最多能够记住500张脸，有一些销售等职业以及特异功能拥有者记住5000张脸也已经是极限了。

　　动态人脸识别的问题假如想象有一天在北京有100万个动态人脸识别的摄像机，而北京有3000万人口，在这种背景下，它每天产生的问题高达数以万万计。在这种情况下，发生错误的机率即使再低，但乘以这么大的基数也会产生海量的误报。所以这个问题的规模非常残酷。

　　在这种情况下我们该怎么做呢?