当前位置:首页 > 消费电子 > 视频技术
[导读]   近年来,计算机图形图像处理技术获得突破性的进展,个人PC中也涌现出越来越多令人惊叹的图形处理软件,凭借着数学界领域的最新研究,个人电脑已经开始学会了“看”图,读懂文字

  近年来,计算机图形图像处理技术获得突破性的进展,个人PC中也涌现出越来越多令人惊叹的图形处理软件,凭借着数学界领域的最新研究,个人电脑已经开始学会了“看”图,读懂文字,辨别建筑物。

  

  传统的PC图像识别技术主要基于统计学原理,其主要依靠分析视觉数据的特性,并将这些特性借助统计建模等数学分析方式提取出来,以最终应用到实际的图像处理中。这种图像识别技术仍旧是目前的主流,广泛用于OCR文字识别、人脸识别、图像处理等领域。但是这种传统的数学分析方式存在很多局限,比如对图片的质量要求很高,这一问题直到新的数学模型出现才得以改善。在2010年5月CHIP的“时尚科技”栏目中,我们就曾经向大家介绍过一种PC图像识别技术的新进展。2009年以华裔澳大利亚籍数学家陶哲轩为代表的一些数学家率先发现了在高维空间中一些原先公认很难的(NP-hard)组合问题,可以用一系列高效的凸优化算法来解决。而由此产生的数学模型可以用来解决目前视觉计算所面临的难题,而且最终的计算结果非常理想。

  微软亚洲研究院的研究员们当时利用这种数学思想取得了图像识别领域的很大突破,使用这种新的数学模型带口罩或墨镜的人脸甚至都可以被PC读取和识别。最近,微软研究院的研究员们在这一技术领域再次取得了新的进展,他们让PC能够看“懂”建筑物,或者具备“认”字的能力,并纠正扭曲或变形的文字。

  读图从看懂结构开始

  

  传统的二维图像识别技术更多地依赖图像特征点来工作,它首先通过统计学的方式来获取图像中最有代表性的点,之后在遇到新的图像时会尝试在其中寻找这些特征点,并将寻找到的点与原来统计得来的特征点进行对比。在图片质量比较出色且没有扭曲的情况下这种技术往往能工作得很好。但现实情况是,我们在拍摄图片时,由于光线、所处的位置等诸多原因,最终无法获得合格的图像,这也就大大限制了这种图像识别技术的发展。

  微软亚洲研究院的研究员们尝试使用高维的数学模型和优化工具来解决这个问题。简单地理解,高维的数学模型采用矩阵的模式,可以帮助我们以整体的概念来看待图像中的物体,而不像传统技术那样只获取局部特征点,这更像是寻求图像中物体的整体对称性和规则性。例如,通常的楼房窗户都是平直的矩形,桌子总是四四方方拥有4条腿等。借助这些规则,即便图片只能提供有限的信息,PC也能够更容易地识别出图片中的物体。在高维数学模型中,输入每一个点的数据都可以被用来预测某种规则性,因此这种高维的图像识别技术可以利用图片中几乎每个像素点来获取图像中物体的整体规则结构,这意味着往往只需图片的一小部分即可完成图像中物体的矫正和识别。例如,在传统图像识别技术中,100&TImes;100的图像区域往往提供不了多少特征点数据,而在高维的图像识别技术中,这意味着将有近10000个像素点都可以用来获取图像的规则结构信息。

  从人的角度读图

  

  借助规则性和规律性来识别周围的环境和景物是人类的基本技能,实际上一个人从出生开始就在学习各种各样的规则。比如什么是矩形、什么是圆形,以及桌子一般什么样、房子一般什么样等等。而高维图像识别使得计算机具备了与人类相同的图像识别方式。当我们看到照片中楼房的窗户因为拍摄视角的问题而变得倾斜时,并不会认为窗户就真的是倾斜的,我们甚至知道窗户本来应该是方正的,同时我们还能分辨出挡在窗户前的树杈并不是窗户的一部分。类似地,通过建立高维图像识别的物体规律,微软研究院的研究员们已经能够让PC实现类似的功能,它能够帮助我们把倾斜的楼宇校正,或者擦去楼宇前方的树枝。

  由此我们也可以了解这项技术的特长与不足,凡是遵循一定规则的物体或图像,这项技术就能够通过建立规则的方式对其进行识别,凡是规则性不强的物体或图像,这项技术往往就会有较大的局限,例如在一个混乱的花丛中处理某个物体就不是这项技术能够胜任的。通常来说,具备规则性的物体往往是由人所创造,因为从人类最基本的理念上来看,人类相信这个世界是简单的,且具备规整结构的,在人类创造各种物品时都会遵循简单、易用的原则,在这种原则的影响下,没有规则性的事物就会被逐步淘汰。规则并没有我们想象的那么复杂,我们并不需要给世界上的每一种物体都建立一个规则。这里的规则实际上是一种数学结构的分类,很多物体在数学结构角度上看是相同的东西,所以我们只需要建立一些重要的通行规则即可。当然也有一些特殊事物要单独建立规则,例如文字。

  文字这种由人类发明的图形组合,在人类审美和规则性思维的调整下,逐步完善并建立了很好的规则性,比如横平竖直以及各种整体或局部的上下左右对称性等等。无论是英文、中文或是其他文字,基本都具备很强的规则性,而这种规则在数学上也是能够归纳和总结出来的,这样的图像在高维空间中有着很低维的内在结构。例如,目前除了笔划很少的汉字规则性不强外,绝大部分汉字都具备很强的规则性。

  总的来说,这种高维图像识别技术能够解决以往我们根本无法解决的一些图像识别问题,在逐步完善后,它将会彻底改变我们识别和操作图片的方式。高维图像识别技术在识别图像中的物体之前,用户要告诉计算机正在识别的规则物体的位置。而下一步要做的就是要让计算机能够更聪明地发现,图像中哪里存在规则性、哪里没有规则性,以及针对图像的不同位置使用不同的规则进行修复等。这种技术另外的一个努力发展方向就是提高运算效率,比如最终能够实现在智能手机等终端上实时运行。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: 驱动电源

在工业自动化蓬勃发展的当下,工业电机作为核心动力设备,其驱动电源的性能直接关系到整个系统的稳定性和可靠性。其中,反电动势抑制与过流保护是驱动电源设计中至关重要的两个环节,集成化方案的设计成为提升电机驱动性能的关键。

关键字: 工业电机 驱动电源

LED 驱动电源作为 LED 照明系统的 “心脏”,其稳定性直接决定了整个照明设备的使用寿命。然而,在实际应用中,LED 驱动电源易损坏的问题却十分常见,不仅增加了维护成本,还影响了用户体验。要解决这一问题,需从设计、生...

关键字: 驱动电源 照明系统 散热

根据LED驱动电源的公式,电感内电流波动大小和电感值成反比,输出纹波和输出电容值成反比。所以加大电感值和输出电容值可以减小纹波。

关键字: LED 设计 驱动电源

电动汽车(EV)作为新能源汽车的重要代表,正逐渐成为全球汽车产业的重要发展方向。电动汽车的核心技术之一是电机驱动控制系统,而绝缘栅双极型晶体管(IGBT)作为电机驱动系统中的关键元件,其性能直接影响到电动汽车的动力性能和...

关键字: 电动汽车 新能源 驱动电源

在现代城市建设中,街道及停车场照明作为基础设施的重要组成部分,其质量和效率直接关系到城市的公共安全、居民生活质量和能源利用效率。随着科技的进步,高亮度白光发光二极管(LED)因其独特的优势逐渐取代传统光源,成为大功率区域...

关键字: 发光二极管 驱动电源 LED

LED通用照明设计工程师会遇到许多挑战,如功率密度、功率因数校正(PFC)、空间受限和可靠性等。

关键字: LED 驱动电源 功率因数校正

在LED照明技术日益普及的今天,LED驱动电源的电磁干扰(EMI)问题成为了一个不可忽视的挑战。电磁干扰不仅会影响LED灯具的正常工作,还可能对周围电子设备造成不利影响,甚至引发系统故障。因此,采取有效的硬件措施来解决L...

关键字: LED照明技术 电磁干扰 驱动电源

开关电源具有效率高的特性,而且开关电源的变压器体积比串联稳压型电源的要小得多,电源电路比较整洁,整机重量也有所下降,所以,现在的LED驱动电源

关键字: LED 驱动电源 开关电源

LED驱动电源是把电源供应转换为特定的电压电流以驱动LED发光的电压转换器,通常情况下:LED驱动电源的输入包括高压工频交流(即市电)、低压直流、高压直流、低压高频交流(如电子变压器的输出)等。

关键字: LED 隧道灯 驱动电源
关闭