原文地址:Seeing the Future With Computer Vision
作者:freddijeffries
在2016年,自动化成为了一个众人关注的焦点。物联网的兴起就是这一风潮的一部分,并且这一潮流扩宽了我们的眼界使我们意识到生活中有这么多方面可以进一步提高效率。只要允许设备、传感器和其他技术产品,能够互相沟通、共享数据、并根据数据来做出明智的决定, 我们可以减少人类的直接输入但仍然保持周围世界的运转。
家庭自动化是人们思考的第一件事情,但很快就会发展到对智能农业,自动化办公管理,车辆和资产的远程监控和维护的讨论。不仅如此,智能驾驶领域也赢得了广泛关注。我们都知道在许多实际例子中,为了安全和有效地进行操作,需要能够采集和分析巨量的数据以用于立即响应。在你家的门决定允许你进入之前,它需要知道你是谁。在你的汽车能够自动驶上街道之前,它需要能够发现危险。但它们是如何做到的呢?其中一个关键的驱动力(知道我在做什么),就是计算机视觉。
ARM®对Apical®的收购,帮助我们回答了前面这些问题。Apical是一家充满创新的位于拉夫堡的图像技术公司。有了如此丰富的知识积累以及一大批成熟产品之后,ARM和Apical,已经为成为计算机视觉技术领域的领袖占据了有利位置。那么,什么是计算机视觉?计算机视觉是计算机图形学的反面,不是从我们观察计算机世界的视角出发,而是计算机反过来观察世界。简单来说,就是你的计算机能够“看”,理解和对周围的视觉刺激做出反应。为了做到这一点当然有照相机和传感器的要求,但是一旦这些需求已经达到,我们必须使计算机识别它看到了什么。我们必须提取像素阵列的本质,并且教导计算机理解它们在特定上下文里的含义。我们已经每天都在使用计算机视觉技术,但可能大部分人并没有意识到它。你用过Snapchat的日常过滤器吗?它利用计算机视觉识别出你的脸在哪,以对你的指令作出反应(比如“张开你的嘴......“)。三星最新的智能手机也使用了计算机视觉,对我这样的书虫来说,它有一个非常方便的功能就是,当它侦测到手机正在你的脸前时,它会修改显示超时设置,以避免看书过程中突然黑屏。这些都是些小例子,但各种可能的改进正在以惊人的速度扩张,事实上,我们已经理所当然地把这认为是潜在的下一个浪潮。
计算机视觉绝不是一个新的想法,早在20世纪60年代和70年代就有了车牌自动识别系统,但深度学习大大扩展了其潜力。早期的系统是基于算法的,去掉观察对象的色彩和纹理信息以有利于识别基本形态,并缩小其代表的可能含义范围。你必须处理此特征提取过程,以让处理能力把重点放在最基础以及明确的方面。深度学习反转了这一过程,以其通过算法来计算出特定尺寸的三角形有可能表示一个路标,为什么不直接观看一大堆路标并学习识别它。?举个例子,使用深度学习技术,计算机可以直接观看成百上千的电吉他图片,以学习在不同的配置、光照、背景和环境下电吉他的样子。因为计算机看到了如此多的图片,即使物体的一部分被遮住,它也开始能够识别,因为它已经知道了足够的信息以完全排除识别对象是其他东西的可能性。这一切聪明行为的基础都是神经网络,其计算机模型设计是模仿了我们了解的大脑如何工作来设计的。随着看到越来越多的吉他,深度学习过程在虚拟神经元之间建立并加强其联系。经过恰当训练的神经网络,在识别电吉他或者其他任何东西上,效果惊人地好
ImageNet竞赛测试电脑能够多精确地识别在选定影像范围内的特定对象
深度学习被接受的一个重要里程碑,是2012年的ImageNet竞赛。 ImageNet是一个拥有超过14万张图片的在线科研数据库,并每年都举行一次竞赛来对比机器们在识别一系列照片中的特定对象时谁的错误最少。 2012年第一次有使用深度学习方案的小组参与竞争,Alex Krizheysky的系统平推了”shallow learning”竞赛中使用传统方法的所有对手,并开始了计算机视觉的革命。这个世界永远回不去从前了。次年出现了更多的基于深度学习的模型,并且微软在最近打破了记录,他们的机器实际上能够在竞赛中击败由人亲自控制的识别系统。
ARM收购Apical后,新技术可以从视频和各种传感器获取数据并生成可视场景的数字表示。例如,这允许安全人员在大型活动上监控人群的行为,根据姿势、举止、行为以及许多其他重要但是微妙的因素,来发现骚乱或者存在潜在问题的区域。这也为车辆和机器能够独立处理他们周围的环境,并应用这些信息来做出明智决定,打开了一扇新的大门
现在我们可以同时处理一个场景的不同方面并解释成数字表示
这告诉我们技术可以发展得多快并给出了一些表示其潜力的例子,比如对自动驾驶的汽车,现在我们可以看到它是如何精确地量化危险性,比如一个在路边的孩子。但它需要做出选择时,会会发生什么事呢?当然,它可以区分儿童和成人,并从统计学上评估孩子有很大的危险性突然跑到路中央。但是,如果有事故即将发生,而避免它的方法是造成另一个事故,我们该指望机器如何选择?我们该如何选择是撞入一个挤满了人的公交车站,还是撞入另一个公交车站?根据本能?还是根据一些内部的道德准则?而潜在地机器为自己着想而产生一些区别对待甚至有害的反应时又该如何处理? 当然,在我们达到出现这些问题的自动化水平之前,还有很长的路要走。但根据行业发展的速度,这些问题以及对应解决方案的出现,宜早不宜迟。