【技术动态】高清网络摄像机深度智能技术发展

发表于讨论求助 2021-07-03 08:00:23

一、前言

在过去的几年里，AI（人工智能）进入了大爆发时期，在计算机视觉领域大放异彩。尤其当今年年初谷歌基于深度学习算法设计的程序Alphago在围棋大战中战胜了职业棋手李世石，让人们彻底相信人工智能可以让机器在某些领域做的比人更好。与此同时，安防行业也步入了SDT（安防大数据）时代，视频监控的数据量正呈井喷式增长，传统的智能识别分析算法已经无法满足大数据时代数据价值挖掘和深入应用需求，因此，将人工智能引入安防行业，让智能变得更有“深度”，让监控学会“像人一样思考”，已经成为大势所趋。目前安防行业深度学习智能算法主要应用在后端服务器中，用于进行人、车的视频结构化，而今年北京安博会上，海康威视推出了内置深度学习算法的前端摄像机产品，后续随着深度学习摄像机的普及，安防行业的智能落地应用将成为现实。本文重点讨论深度学习算法相比传统智能算法的优势以及将深度学习算法前置的意义。

二、传统智能算法不足

传统智能视频监控对摄像机安装场景要求特别高，不同场景下的智能识别分析准确率相差很大，要得到较高的准确率，往往需要“天时”、“地利”、“人和”。有时即使凑齐三要素，效果也不一定好，究其原因，主要是传统的视频智能分析算法还存在很多不足。

一个智能识别分析过程，比如人脸检测识别，主要包含两个关键步骤：首先需要提取特征，然后进行学习分类。

第一步中特征设计的好坏直接决定算法准确率的上限，而且系统主要的计算和测试工作都耗在这一大部分。传统智能算法是通过人工来设计特征的，往往具有很大的主观性，还很容易遗漏一些抽象（人脑无法理解或描述）的特征，特别是样本变得很大时，不同角度、不同光照下的很多特征很难被发现。所以，虽然传统智能算法有时能够在特定环境和时间下表现出良好的性能，但只要某一因子（画质、环境等）发生改变，准确率可能就会出现明显的下降。

第二步学习分类过程主要包括目标检测和属性识别，并且类别越多，难度越大。因此传统智能分析技术对车的分析准确率较高，而对人、物体的分析准确率相对较低。比如车辆检测，就是区分车和非车，分类简单，难度小；车辆属性识别，需要识别不同的车型、车标等等，不过车的这些属性的类别相对较少，所以分类效果会相对较好。但是，如果要对人脸做一个分类，一个人就是一类，对应类别就非常多，难度就非常大。

传统的智能算法通常为浅层学习模型，针对复杂分类的大数据场景，分析效果不够理想，直接制约了其应用的广度和深度，也限制了其进一步发展的空间。因此，SDT安防大数据时代，我们亟需有“深度”的智能。

三、深度学习算法优势

前面提到，传统智能算法是人工设计特征的，特征能不能设计好很大程度上是靠经验，甚至是运气，并且这个过程需要耗费大量的时间。那么，能不能让设备自动地学习一些特征呢？答案是能！这其实就是AI（人工智能）的目标。

早在1956年的达特茅斯会议上，几位计算机科学家第一次提出了“人工智能”的概念，目标就是用机器去实现所有必须借助人类智慧才能实现的任务。只不过受制于当时的模式算法、计算能力以及样本数量级，机器无法完成大规模的数据训练和复杂任务，人工智能的研究陷入低谷。直到2006年，Hinton提出了“深度学习”网络，使得神经网络获得突破性进展，尤其是在视觉识别和语音识别领域，深度学习算法模式识别的精度，远超其他算法，甚至部分能力超过人类，进一步推动了AI（人工智能）的发展。

深度学习的灵感来源于大脑

神经网络，可以说我们的大脑就是一个非常复杂的深度学习模型。大脑里的神经网络由数以亿计的神经元连接而成，深度学习也使用同样的结构，是由多层神经元构成的神经网络，这些多层的神经网络像人类大脑一样，可以收集信息，并基于收集到的信息产生相应的行为，具备了人类对事物抽象和重构的能力。

因此，深度学习从本质上就区别于其他算法，从根本上解决了传统算法存在的不足，主要体现在以下两个方面：

首先，从“浅层”到“深层”。深度学习的算法模型相比较传统算法的2层、3层结构来说具备更深的层次结构，有时甚至达到上百层，能够处理复杂分类的大数据场景。深度学习非常像人的学习过程，是一个对特征一层一层抽象的过程，每一层会有不同的权重，这个权重实际上就是学习到了图像的某些“成分”，而且越高层，成分越具体。比如我们输入一个人脸的图片，第一层可能是一些“点”、“边”、“拐角”，再往上可能就是“眼角”、“嘴唇”，到最后一层可能就是脸的不同部分了。深度学习和人脑一样，将原始信号经过逐层处理，最终从部分到整体抽象为我们感知的物体。

其次，从“人造特征”到“特征学习”。深度学习不需要通过人工，而是通过机器自己来提取特征，这样它能够尽量多地提取出对象的特征，包括一些无法描述的抽象特征，特征越多，识别分类对象的准确率越高。这点从近年的一些国际竞赛结果中也可以很明显的看出来，2012年，Hinton利用深度卷积神经网络（DCNN）模型AlexNet，将ImageNet大规模视觉识别竞赛（ILSVRC）之“图像分类”任务的TOP5错误率降低到15.3%，而传统方法的错误率高达26.2%，这一结果让研究者看到了深度学习的强大威力，以至2013年这个竞赛再次举行时，成绩靠前的队伍几乎全部采用了深度学习方法。2015年，微软亚洲研究院设计了一个深达152层的ResNet模型将这一错误率刷新到了3.6%，而人类在这一项测试中的错误率是5.1%。

由此，我们可以总结出深度学习算法可以带来的最直接的几点好处：接近甚至超越人类的模式识别精度、超强抗干扰的环境适应能力、数以千计的特征识别种类。

四、深度学习算法崛起背景

既然深度学习的优势如此明显，并且这套方法在80年代末就被提出，那么为何直到近两年才开始崛起并超越人类呢？总结起来，主要有三大因素共同决定了深度学习只在近几年才开始大爆发：数据规模，计算能力，网络架构。

首先，大数据是深度学习成功的重要路基。在如今的互联网时代，数据量的累积是爆炸式的，越来越多的领域正持续积累着日趋丰富的应用数据，这对深度学习的进一步发展和应用至关重要。不过大数据收集是有成本的，并且标注成本已经开始水涨船高，样本的好坏直接决定了模型的精确度，所以只有拥有一定技术实力的公司才能持续投入研究。在安防领域，像海康威视等有自主研发实力且在安防行业深耕多年的公司，运用大量真实视频监控场景的视频、图片数据作为训练样本库，数据量大且质量较好，通过超过百人团队的数据组，对视频图像进行打标签，积累了千万级别的样本数据，在使用这些数据量大且质量良好的样本不断训练下，对安防监控场景下的人、车、物进行模式识别的模型也会越来越精确。

其次，高性能硬件平台计算是引擎助力。深度学习模型需要大量的样本，这就避免不了大量的计算，而以前的硬件设备不足以训练出复杂的上百层的深度学习模型。2011年谷歌DeepMind用了1000台机器、16000个CPU处理的深度模型大概有10亿个神经元，而现在，只要用几个GPU，我们就可以完成同样的计算，并且迭代速度更快。因此，GPU、超级计算机、云计算等高性能硬件平台的迅猛发展让深度学习成为可能，强大的计算能力有助于深度学习算法快速实现验证，并积累更多经验进行模型修正，进一步提高模型精度。

最后，算法网络的结构创新是高效燃料。通过深度学习算法的不断优化，可以更好地识别目标物。在安防领域，对于一些复杂场景，比如人脸识别，光照、角度、姿态、表情、饰物、分辨率等都会影响识别准确率，这要求算法模型具有更强的泛化能力，深度学习模型需要进一步优化。深度学习算法的层次越深，性能就会越好，目前海康威视的深度学习算法层次已经达到200层，处于业界领先。在2016年ImageNet竞赛中，海康威视研究院基于Faster R-CNN深度学习目标检测算法排名第一，领先盘踞榜首近一年的第二名微软4.1个点，刷新纪录。另外，海康威视关于车辆检测和车头方向评估技术在KITTI测评中排名世界第一，关于多目标跟踪技术在MOT Challenge测评中结果排名世界第一。

总的来说，随着安防大数据的快速积累、大规模并行计算的高速发展、更优化算法的不断出现，是深度学习算法崛起不可忽视的条件。

五、深度学习算法产品应用

近两年来，深度学习在语音识别、计算机视觉、语音翻译等领域，均战胜传统的机器学习方法，甚至在人脸验证、图像分类上还超过人类的识别能力，因此受到了安防行业视频监控领域的青睐。

在视频智能应用中，包括目标检测、跟踪、识别三大方向，深度学习的兴起对这三大方向都产生了深远的影响。相比于传统的智能算法，融合了深度学习的智能算法所得到的性能往往是突破性的，就像四缸涡轮增压发动机与普通柴油发动机的区别。围绕着这三大主流应用方向，深度学习的触角触及了安防视频监控行业的方方面面：人脸检测、车辆检测、非机动车检测、人脸识别、车辆品牌识别、行人检测、人体属性、异常人脸检测、人群行为分析、各种感兴趣目标的跟踪等等。

这些智能功能最终还是要通过一系列支持深度学习算法的视频监控前端摄像机、后端服务器等产品来实现，深度学习的深层次算法模型，对计算能力要求非常高，相比之下，多线程的GPU比CPU能够更好地吻合深度学习的计算场景，具备更高的计算能力。因此，很多安防厂商，如海康威视推出了“深眸”、“脸谱”、“超脑”、“神捕”等一系列运用深度学习算法的专业智能前端、后端产品家族。其中，“深眸”系列产品在今年安博会上首次亮相就获得了业内极大的关注，基于多引擎高性能的GPU硬件平台，内嵌专为视频监控场景设计、优化的深度学习算法，具备了比人脑更精准的安防大数据归纳能力，实现了在各种复杂环境下人、车、物的多重特征信息提取和事件检测。丰富的家族式产品充分满足了多场景、多行业的应用需求。

在小型项目中，前端摄像机可以直接实现人、车属性的结构化提取，并可以在前端内置上万张人脸库，直接实现人脸的比对，省去服务器的成本；在中大型项目中，前端摄像机可以和后端服务器配合，将视频结构化的工作在前端分布式完成，减轻后台压力，提升后台比对检索效率。并且运用深度学习算法准确率得到了质的提升，极大推动了智能的落地应用。

六、结语

深度学习算法在安防行业乃至整个工业界其实都才刚刚起步，未来，随着安防大数据的快速累积，硬件平台计算性能的飞速提升以及各个厂商深度学习算法模型的不断优化，基于深度学习算法的智能视频分析产品一定会成为从现在的专业智能领域扩展到整个通用行业，让人工智能真正的大规模普及，实现整个安防视频监控产业的升级。

发表

签到

26906人签到看排名