当前位置:首页 > 嵌入式 > 嵌入式分享
基于核心定位的差异,我们从“核心目标、技术链路、核心任务、数据需求、输出结果”五大核心维度,进一步拆解计算机视觉图像处理的具体区别,让两者的差异更清晰、更具象,避免因“共享部分基础技术”而产生混淆。需要强调的是,两者虽有部分技术重叠(如图像预处理中的滤波、边缘检测),但这些技术在两者中的“作用”和“定位”截然不同,这也是易混点之一,我们将在后续重点说明。
(一)核心目标:优化图像 vs 理解世界
核心目标是两者最根本的区别,也是所有差异的源头,我们可以用一句话精准概括:
图像处理的核心目标:改善图像的视觉质量,或对图像进行格式转换、特征提取,为后续使用(人类观看或其他系统处理)提供更优的图像素材。它不关心图像内容的含义,只关心图像本身的“好坏”——比如图像是否清晰、是否有噪声、颜色是否准确、尺寸是否合适。无论处理过程多么复杂,最终的目标都是输出一张“更好用”的图像,核心是“服务于图像本身”。
例如,卫星影像拍摄后,会经过图像处理技术进行“去云、去雾、色彩校正”,目的是让卫星影像更清晰,方便人类或后续系统查看地表细节;工业相机拍摄的零件图像,会经过图像处理进行“边缘增强、噪声去除”,目的是让零件的轮廓更清晰,为后续的质检提供更优的图像素材;老照片修复则是通过图像处理技术,去除照片上的划痕、噪声,还原照片的清晰度和色彩,让人类能更好地观看。
计算机视觉的核心目标:通过图像或视频,感知现实世界的信息,实现对物体、场景、行为的识别、理解和决策,让机器具备“看见并理解”世界的能力。它不关心图像本身是否“完美”,只关心图像中包含的“语义信息”——比如图像中有什么物体、物体在什么位置、物体在做什么、场景是什么类型。核心是“服务于机器对世界的理解”,图像只是机器获取现实世界信息的“载体”。
例如,自动驾驶汽车的视觉系统,核心目标不是优化拍摄到的路况图像,而是通过图像识别出前方的车辆、行人、红绿灯、道路标线,判断出车辆与周边物体的距离、行人的行走方向,预测出潜在的安全隐患,进而做出刹车、加速、变道等决策;医疗影像的计算机视觉系统,核心目标不是优化影像的清晰度(虽然可能会用到图像处理技术辅助),而是通过影像识别出病灶的位置、大小、形态,判断病灶的类型,为医生的诊断提供参考;人脸识别系统的核心目标,不是优化人脸图像的质量,而是通过人脸图像识别出“这个人是谁”,进而实现解锁、考勤、身份验证等功能。
(二)技术链路:单一加工 vs 完整闭环
技术链路的差异,源于核心目标的不同:图像处理的技术链路是“单一的加工流程”,而计算机视觉的技术链路是“从采集到决策的完整闭环”,两者的复杂程度和覆盖范围截然不同。
图像处理的技术链路相对简单,核心是“输入图像→加工处理→输出图像”,是一个单一的、线性的加工过程,链路环节较少,且所有环节都围绕“图像优化”展开。其核心技术主要集中在“图像预处理”和“图像转换”两大模块,具体包括:噪声去除(高斯滤波、中值滤波)、图像增强(直方图均衡化、亮度调整)、图像复原(去模糊、校正畸变)、图像分割(简单的区域划分)、图像压缩(格式转换、尺寸压缩)、图像形态学操作(膨胀、腐蚀)等。
这些技术的核心作用,都是对输入的原始图像进行针对性的加工,解决图像的某个“瑕疵”或满足某个“格式需求”,最终输出一张优化后的图像。整个链路没有“识别、理解、决策”等环节,也不需要结合外部数据或模型,只要输入图像,就能通过固定的算法完成处理。例如,对一张模糊的监控图像进行“去模糊+降噪”处理,链路就是“输入模糊图像→高斯滤波去噪→去模糊算法处理→输出清晰图像”,流程简单、目标明确。
计算机视觉的技术链路则复杂得多,是一个“从图像采集到决策输出”的完整闭环,涵盖了“采集→预处理→特征提取→分析识别→决策输出”五大核心环节,且每个环节都环环相扣、层层递进,构成了一个完整的技术体系。需要注意的是,计算机视觉会用到图像处理中的“图像预处理”技术,但这些技术只是计算机视觉链路中的“一个环节”,而非全部——图像处理是计算机视觉的“基础支撑”,但计算机视觉远不止图像处理。
计算机视觉的技术链路中,除了图像预处理(借鉴图像处理技术),核心还包括:特征提取(通过卷积神经网络CNN等深度学习技术,自动提取图像的核心特征)、分析识别(通过图像分类、目标检测、图像分割等算法,解读图像内容)、决策输出(将识别结果转化为可执行的指令)。整个链路需要结合深度学习模型、海量训练数据、高性能硬件(GPU、FPGA)等,是一个“多环节协同、多技术融合”的复杂闭环,最终实现“从图像到决策”的转化。
例如,自动驾驶的计算机视觉链路:首先通过激光雷达、摄像头等设备采集路况图像(图像采集);然后对采集到的图像进行去噪、增强、几何校正等预处理(借鉴图像处理技术);接着通过CNN提取图像中的核心特征(如车辆、行人的轮廓特征);再通过YOLO、Faster R-CNN等算法进行目标检测和场景理解,识别出车辆、行人、红绿灯的位置和状态(分析识别);最后根据识别结果,输出刹车、加速、变道等决策指令(决策输出)。整个链路涵盖了“采集—处理—识别—决策”,远超出了图像处理的单一加工流程。
(三)核心任务:像素操作 vs 语义解读
核心任务的差异,是核心目标的具体体现:图像处理的核心任务是“对像素进行操作”,聚焦于图像的“形式”;计算机视觉的核心任务是“对语义进行解读”,聚焦于图像的“内容”。
图像处理的核心任务,本质上是“像素级的操作与转换”,所有任务都围绕像素展开,不涉及任何语义解读。具体来说,主要包括三大类任务:
第一类,图像优化任务:解决图像的“瑕疵”,改善图像的视觉质量,比如去噪、去模糊、校正畸变、色彩校正、亮度调整等,核心是让图像更清晰、更符合人类或后续系统的观看需求。这类任务的核心是“调整像素的灰度值、颜色值”,比如去噪就是通过算法替换噪声像素的灰度值,让图像变得平滑;亮度调整就是改变所有像素的亮度值,让图像更亮或更暗。
第二类,图像转换任务:将图像从一种形式转换为另一种形式,满足不同的使用需求,比如图像压缩(将高清图像压缩为低分辨率图像,减少存储占用)、图像格式转换(将JPG格式转换为PNG格式)、图像旋转、裁剪、缩放等。这类任务的核心是“改变像素的排列方式或数量”,比如图像缩放就是调整像素的数量,实现图像尺寸的变大或变小;图像旋转就是改变像素的排列顺序,让图像旋转一定角度。
第三类,浅层特征提取任务:提取图像的浅层视觉特征,比如边缘、角点、纹理等,但这些特征只是“像素的组合”,不具备语义含义,无法用于识别物体或理解场景。比如边缘检测就是提取图像中亮度变化剧烈的像素区域,形成物体的轮廓边缘,但无法判断这个边缘属于什么物体;纹理提取就是捕捉图像中像素的排列规律,形成纹理特征,但无法判断这个纹理属于什么物体。
计算机视觉的核心任务,本质上是“语义级的解读与判断”,所有任务都围绕“图像内容的语义信息”展开,核心是让机器“看懂”图像中的内容。具体来说,主要包括四大类任务:
第一类,识别任务:判断图像中的内容是什么,比如图像分类(判断一张图像是猫还是狗)、目标检测(识别图像中物体的种类和位置)、图像分割(像素级识别,区分图像中不同的物体和区域)。这类任务的核心是“将像素特征转化为语义标签”,比如通过提取图像的核心特征,判断出图像中的物体是“行人”“车辆”还是“红绿灯”。
第二类,理解任务:解读图像中内容的含义、状态和关系,比如场景理解(判断当前场景是城市道路还是高速公路)、行为识别(判断行人是在行走还是横穿马路)、人脸表情识别(判断人物是开心还是生气)。这类任务的核心是“对语义信息进行逻辑分析”,比如结合图像中的所有物体(货架、商品、收银台),判断出当前场景是“超市”。
第三类,跟踪任务:跟踪图像中物体的运动轨迹,比如车辆跟踪(跟踪前方车辆的行驶轨迹)、行人跟踪(跟踪监控画面中行人的行走路线)。这类任务的核心是“结合时序图像,分析物体的运动规律”,比如通过连续多帧图像,判断出车辆的行驶速度和下一步运动方向。
第四类,决策任务:根据识别和理解的结果,做出相应的决策或预测,比如自动驾驶中的刹车、加速决策,监控安防中的异常报警决策,医疗影像中的病灶诊断提示。这类任务的核心是“将语义信息转化为可执行的指令”,实现技术的落地价值。
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读
关闭