摩登3新闻554258:_从脸部识别到火星机器人 正在改变世界的计算机视觉

  计算机视觉是一门跨领域的计算机科学,它从真实的世界中获取数据并予以分析,来生成数字或符号信息。通过这种方式计算机可尝试处理高维数据,这种方式正是人类视觉感知图像、面孔和类似数据的方式。因此,为了完成上述任务,这门学科大部分由不同模型组成,而且通常需借助于机器学习的研究成果,从数学(特别是几何)、物理、统计、认知科学和神经科学中获取输入参数。自从科学家试图通过模拟人类大脑来创建计算机的视觉或感知能力,神经科学变成为了不同的技术、算法和模型获取灵感的源泉。

  计算机视觉有很多分支学科,比如面部/头部追踪和监测、物体识别和姿态估计、图像追踪、场景重构、机器学习、动作捕获与估测、图像识别与修复,等等。事实上,我们可将人工智能视为其母学科,因为它利用机器学习和计算机视觉来获取对环境的深层理解。有时候也会有一些哲学问题,因为它可能会被问到计算机是否真的能够看见或意识到发生了什么。

  例如,著名的塞尔思维试验——中国房间,该实验描述了一个完全接收计算机指令的人,比如“当你看到这个中国符号时,输出这个英文单词”。我们能说这个人懂中文吗?当然不能。即使对于一个外部观测者来说似乎这个人是懂中文的,但大部分人都会予以否认。类似问题也被用于人工智能观测:如果计算机只是遵循指令,我们能认为它有感知吗?好奇者号、火星漫游者、新视野号,这些太空飞船真的能看见周边环境还是它们仅是遵循人为指令?当深思(Deep Thought)在下象棋时,它真的在深思吗?这些硬人工智能的问题就好像:大部分科学家相信像人一样完整的理解我们周边的世界对于计算机来说是不可能的,因为总有一些缺失的环节,无法真正理解发生了什么。

  神经科学的进展,尤其是在神经生物学上,给计算机视觉提供了非常重要的数据,因为大部分模型和方法都依赖于对人类视觉的研究。图像传感器检测电磁辐射,是利用了基于对量子物理研究的技术。主体用来追踪并研究光线,而想要完整的理解这一点如果没有现代物理是不可能的,因此光和粒子通常是研究的重点。由于爱因斯坦的相对论理论,我们发现速度是有限制的,最大也只能达到光速。著名的爱因斯坦方程告诉我们质量乘以速度的平方就等于能量,不管质量多少,物理上都等同于能量。这就是恒星从其核心发生氢聚变,形成氦时制造能量的方式,因此它们的某部分质量变成了能量。

  另一方面,量子物理给我们讲了一个亚原子级别的故事,基本和非基本粒子的行为并不像看上去那样可以预测。量子物理的重大发现告诉我们,我们可以用概率和统计来描述粒子状态,而世界并不像我们想的那么精准。这也是爱因斯坦直到去世都反对量子力学的原因,因为他相信物理应该能由精确的规律支配,我们能够完整的理解世界,并且不用概率来描述世界。因此,现今的计算机视觉利用的图像传感器采用了量子物理进行设计,而光线与不同表面的相互反应这一过程也有这样的量子物理予以解释。注意!爱因斯坦因光电效应获得了1921年的诺贝尔奖,而这一效应描述的正是光线如何与不同表面发生反应,比如说,当你用光线照射金属时,金属会释放出电子。

  神经科学和计算机视觉也在信号处理(不同物理和抽象系统之间处理信息传输的理论和应用)中有所体现。数学和统计方法用于规范、呈现并分析不同的输入与输出,在语音、语言、图像和视频处理方面尤其重要。

  人工神经网络倾向于模拟人类的神经系统和大脑功能,它的知识来源于物理、生物和神经科学。这些模型都是学习模型,它们受到生物,尤其是人类生物和神经网络的灵感激发。其主要目的就是评估在有大量输入的情况下,执行某种任务的功能。这些神经网络倾向于模拟真实的神经网络,并被设计成互联的“神经元”系统,彼此之间能够交流。人类的神经通道就是一系列互联的神经元。神经元本身由轴突和树突构成,轴突是传导电脉冲的神经末梢终端;树突是类似树形的结构,将从其他神经细胞接收到的电化学刺激传递给其他细胞体。人工神经网络就模拟这种相互反应和信息传递。比如,如果有神经网络试图检测图像中的数字和字母(与CAPTCHA所做的类似),一组输入神经元会被不同像素激活,有一个主功能来判断哪些是相关的,结果会被传递给其他神经元,并试图将这些字母和数字和已存的信息联系起来。当激活输出神经元,向终端用户输出匹配结果,这一过程便完成了。

  机器学习有两种主要的学习类型。一种是监督式学习,处理有标记的数据。例如,包含不同图像的数据组,每个数据都有注释和描述。另一种则是非监督式学习,处理没有标记的数据,计算机必须找到区分不同数据子集、集群或相似图像的方法。机器学习的过程中,神经网络和类似机器学习算法使用训练集和测试集。计算机在一个数据子集中经过“训练”,而后基于先前加工的数据利用其余的数据检验学习是否有效。这种方法与通过改变参数在不同测试中检验学生们的学习成果的概念相同,与教师或者教授在方程式里使用不同的数字,计算机被输入新图像或者新数据,它要在基于先前学习有注释的数据的基础上,得出正确的结论、近似值或者估计的过程也一样。因此它必须推导出一个特定函数,将其应用于其他数据中,产生新的实例。

  再者,非监督式学习试图在无标记的数据中找出隐藏的结构,这主要应用于集群、各种统计分布。没有信号或比较能让电脑来标记数据,它主要用于模式识别和回归分析(一种估算不同变量之间关系的统计方法)。监督式学习类似于学习过程中有老师指导纠正,而非监督式学习则类似于自学过程,没有特定的连续反馈。