当前位置:首页 > 消费电子 > 视频技术
[导读]   近年来,计算机图形图像处理技术获得突破性的进展,个人PC中也涌现出越来越多令人惊叹的图形处理软件,凭借着数学界领域的最新研究,个人电脑已经开始学会了“看”图,读懂文字

  近年来,计算机图形图像处理技术获得突破性的进展,个人PC中也涌现出越来越多令人惊叹的图形处理软件,凭借着数学界领域的最新研究,个人电脑已经开始学会了“看”图,读懂文字,辨别建筑物。

  

  传统的PC图像识别技术主要基于统计学原理,其主要依靠分析视觉数据的特性,并将这些特性借助统计建模等数学分析方式提取出来,以最终应用到实际的图像处理中。这种图像识别技术仍旧是目前的主流,广泛用于OCR文字识别、人脸识别、图像处理等领域。但是这种传统的数学分析方式存在很多局限,比如对图片的质量要求很高,这一问题直到新的数学模型出现才得以改善。在2010年5月CHIP的“时尚科技”栏目中,我们就曾经向大家介绍过一种PC图像识别技术的新进展。2009年以华裔澳大利亚籍数学家陶哲轩为代表的一些数学家率先发现了在高维空间中一些原先公认很难的(NP-hard)组合问题,可以用一系列高效的凸优化算法来解决。而由此产生的数学模型可以用来解决目前视觉计算所面临的难题,而且最终的计算结果非常理想。

  微软亚洲研究院的研究员们当时利用这种数学思想取得了图像识别领域的很大突破,使用这种新的数学模型带口罩或墨镜的人脸甚至都可以被PC读取和识别。最近,微软研究院的研究员们在这一技术领域再次取得了新的进展,他们让PC能够看“懂”建筑物,或者具备“认”字的能力,并纠正扭曲或变形的文字。

  读图从看懂结构开始

  

  传统的二维图像识别技术更多地依赖图像特征点来工作,它首先通过统计学的方式来获取图像中最有代表性的点,之后在遇到新的图像时会尝试在其中寻找这些特征点,并将寻找到的点与原来统计得来的特征点进行对比。在图片质量比较出色且没有扭曲的情况下这种技术往往能工作得很好。但现实情况是,我们在拍摄图片时,由于光线、所处的位置等诸多原因,最终无法获得合格的图像,这也就大大限制了这种图像识别技术的发展。

  微软亚洲研究院的研究员们尝试使用高维的数学模型和优化工具来解决这个问题。简单地理解,高维的数学模型采用矩阵的模式,可以帮助我们以整体的概念来看待图像中的物体,而不像传统技术那样只获取局部特征点,这更像是寻求图像中物体的整体对称性和规则性。例如,通常的楼房窗户都是平直的矩形,桌子总是四四方方拥有4条腿等。借助这些规则,即便图片只能提供有限的信息,PC也能够更容易地识别出图片中的物体。在高维数学模型中,输入每一个点的数据都可以被用来预测某种规则性,因此这种高维的图像识别技术可以利用图片中几乎每个像素点来获取图像中物体的整体规则结构,这意味着往往只需图片的一小部分即可完成图像中物体的矫正和识别。例如,在传统图像识别技术中,100&TImes;100的图像区域往往提供不了多少特征点数据,而在高维的图像识别技术中,这意味着将有近10000个像素点都可以用来获取图像的规则结构信息。

  从人的角度读图

  

  借助规则性和规律性来识别周围的环境和景物是人类的基本技能,实际上一个人从出生开始就在学习各种各样的规则。比如什么是矩形、什么是圆形,以及桌子一般什么样、房子一般什么样等等。而高维图像识别使得计算机具备了与人类相同的图像识别方式。当我们看到照片中楼房的窗户因为拍摄视角的问题而变得倾斜时,并不会认为窗户就真的是倾斜的,我们甚至知道窗户本来应该是方正的,同时我们还能分辨出挡在窗户前的树杈并不是窗户的一部分。类似地,通过建立高维图像识别的物体规律,微软研究院的研究员们已经能够让PC实现类似的功能,它能够帮助我们把倾斜的楼宇校正,或者擦去楼宇前方的树枝。

  由此我们也可以了解这项技术的特长与不足,凡是遵循一定规则的物体或图像,这项技术就能够通过建立规则的方式对其进行识别,凡是规则性不强的物体或图像,这项技术往往就会有较大的局限,例如在一个混乱的花丛中处理某个物体就不是这项技术能够胜任的。通常来说,具备规则性的物体往往是由人所创造,因为从人类最基本的理念上来看,人类相信这个世界是简单的,且具备规整结构的,在人类创造各种物品时都会遵循简单、易用的原则,在这种原则的影响下,没有规则性的事物就会被逐步淘汰。规则并没有我们想象的那么复杂,我们并不需要给世界上的每一种物体都建立一个规则。这里的规则实际上是一种数学结构的分类,很多物体在数学结构角度上看是相同的东西,所以我们只需要建立一些重要的通行规则即可。当然也有一些特殊事物要单独建立规则,例如文字。

  文字这种由人类发明的图形组合,在人类审美和规则性思维的调整下,逐步完善并建立了很好的规则性,比如横平竖直以及各种整体或局部的上下左右对称性等等。无论是英文、中文或是其他文字,基本都具备很强的规则性,而这种规则在数学上也是能够归纳和总结出来的,这样的图像在高维空间中有着很低维的内在结构。例如,目前除了笔划很少的汉字规则性不强外,绝大部分汉字都具备很强的规则性。

  总的来说,这种高维图像识别技术能够解决以往我们根本无法解决的一些图像识别问题,在逐步完善后,它将会彻底改变我们识别和操作图片的方式。高维图像识别技术在识别图像中的物体之前,用户要告诉计算机正在识别的规则物体的位置。而下一步要做的就是要让计算机能够更聪明地发现,图像中哪里存在规则性、哪里没有规则性,以及针对图像的不同位置使用不同的规则进行修复等。这种技术另外的一个努力发展方向就是提高运算效率,比如最终能够实现在智能手机等终端上实时运行。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

随着科技的飞速发展,机器学习已成为推动现代社会进步的重要驱动力。机器学习技术广泛应用于各个领域,从图像识别到自然语言处理,从智能推荐到自动驾驶,都体现了其强大的潜力和价值。那么,机器学习究竟追求哪些核心目的呢?本文将深入...

关键字: 机器学习 智能推荐 图像识别 人工智能

今天,是国庆长假的第一天。一场将前沿科技与日常生活深度融合,富有趣味性和创新性的“人工智能系列活动”吸引了众多科学爱好者的积极参与,一同在线探究传动结构的奥秘。

关键字: 人工智能 图像识别 智慧交通

初定采用图像识别的方法,图像文字提取有很多现成方案,而且还是显示器上的文字提取,比车牌识别要简单得多,就算不答应他,我也想自己试试玩玩。计划几天的工作量,没打算在它身上废太多功夫。一切的创新从拷贝开始,没想到3小时就把功...

关键字: 图像识别 显示器 创新

摘要:选煤过程中各级分选工艺参数复杂,而利用机器学习从大量数据中找到一定的规律,能够帮助选煤厂找到合适的分选参数。另外,利用机器视觉能够帮助选煤厂进行研石分拣灰分预测,提高选煤厂的效率。鉴于此,在对机器学习进行简单介绍的...

关键字: 选煤 图像识别 算法

摘要:计算机的发展令文字传播愈发广泛,生活中越来越多的文字需要录入电脑,以方便转发、记录,为此需要耗费大量劳动力,尽管当今已经有许多文字识别录入方式,但仍难以达到日常生活中低精度图片识别的标准。现主要采用卷积神经网络(C...

关键字: 文字识别 多分类 预处理

摘要:在风电场机组巡检过程中,常规的风电机组叶片外观检查主要采用高清照相机逐张拍摄,人眼甄别的方式,检测效率低,劳动强度大且精度受限。基于此,搭建了一套基于相机阵列的叶片图像采集系统,通过相机阵列和图像处理服务器相结合,...

关键字: 缺陷检测 相机阵列 图像识别

摘要:变电站内高压断路器承担着运行方式转换、设备停电、故障切除等重要作用,事关电网安全稳定运行。根据变电运行规范要求,运行人员需要每月对现场运行中的断路器动作次数进行抄录,形成报表,但其存在工作效率低、数据管理难等问题。...

关键字: 断路器 图像识别 智能管理

目前视频监控前后端均已经实现了智能化,其中前端“智能化”,后端“云化”,并逐渐演变为“边缘节点”、“边缘域”、“云中心”三个层次,云边融合的产业生态圈成为安防产业的新趋势,我们简整理一下智能安防监控在各行业应用价值。

关键字: 智慧安防 图像识别 智慧公安

摘 要 :有限的车位数量难以满足快速增长的停车需求,如何充分利用现有车位资源、提高停车效率是缓解问题的关键。基于成熟的图像识别与系统开发技术,采用改进型背景差分算法、路径规划算法和 Java Web 开发等技术, 针对...

关键字: 停车引导 图像识别 泊位选择 车位检测 背景差分 滤波

摘要:该系统是一种基于嵌入式系统,集成图像识别、视频采集卡和控制器等软硬件进行有机整合,实现出入口无人看守的智能车辆管理系统,文章系统拥有远程控制、网络远程升级、车辆自动设别、车辆进出自动匹配、组合式车辆准入控制、黑名单...

关键字: 嵌入式 车辆管理 分布式 图像识别
关闭
关闭