当前位置:首页 > 嵌入式 > 嵌入式分享
图像分割的核心是“如何精准拆分图像”,随着计算机视觉技术的发展,“拆分图像”的方法经历了从“传统手动分割”到“传统机器学习分割”,再到“深度学习分割”的迭代升级。不同的技术方法,其核心逻辑、适用场景和分割精度存在显著差异,以下按“技术迭代顺序”,详细拆解各类核心技术的原理、实操逻辑、优势与局限,重点讲解目前主流的深度学习分割技术。
(一)传统手动分割技术:最基础的“拆分”方式
传统手动分割是最早的图像分割方式,核心逻辑是“人工逐像素标注、手动拆分图像”,本质是“人类视觉替代机器视觉”,无需复杂的算法,完全依赖人工操作。这种技术主要分为两种类型:
1. 手动描边分割:通过专业的图像编辑工具(如Photoshop、LabelMe),人工沿着目标的轮廓描边,将目标区域与背景区域拆分,标注出每个子区域的范围。例如,在医疗影像标注中,医生需要手动沿着病灶的边缘描边,将病灶区域与正常组织拆分,得到精准的分割掩码。
2. 阈值手动调整分割:对于灰度图等简单图像,人工调整灰度阈值,将像素值高于阈值的区域和低于阈值的区域拆分为两个子区域(如将灰度值128的像素标注为目标,灰度值≤128的像素标注为背景)。这种方式适用于目标与背景灰度差异较大的简单图像,操作相对简单,但精度较低。
传统手动分割的核心优势是“分割精度高”(只要人工操作细致,就能得到精准的分割结果),适用于小批量、高精度需求的场景(如医疗影像的少量标注、科研数据的手动拆分);其核心局限是“效率极低、成本极高”,无法适配大批量图像的分割任务(如自动驾驶的海量路况图像、智能安防的海量监控图像),且人工操作容易出现疲劳误差,分割结果的一致性较差(不同人标注的结果可能存在差异)。目前,手动分割主要用于“标注训练数据”,为机器学习、深度学习分割算法提供样本,很少直接用于实际应用场景。
(二)传统机器学习分割技术:基于特征的自动拆分
随着机器学习技术的发展,出现了基于传统机器学习的图像分割技术,其核心逻辑是“通过算法自动提取像素特征,基于特征相似性实现像素聚类或分类”,摆脱了对人工操作的完全依赖,实现了“半自动化、自动化”的图像拆分。这种技术的核心是“特征提取+聚类/分类”,常用的方法主要有以下4种,各有侧重、适配不同场景:
1. 阈值分割法:基于灰度/颜色特征的简单拆分
阈值分割法是最基础、最常用的传统机器学习分割方法,核心逻辑是“基于像素的灰度值或颜色值,设定一个或多个阈值,将图像拆分为若干个子区域”——核心假设是:目标区域与背景区域的灰度值/颜色值存在明显差异,通过阈值可以快速区分。
阈值分割法主要分为两种:① 单阈值分割:设定一个阈值T,将像素值T的区域标注为目标,像素值≤T的区域标注为背景,适用于目标与背景灰度差异较大、背景单一的简单图像(如黑白文字图像、灰度值差异明显的工业零件图像);② 多阈值分割:设定多个阈值(如T1、T2、T3),将像素值划分为多个区间,每个区间对应一个子区域,适用于目标与背景灰度差异不明显、存在多个灰度层次的图像(如灰度渐变的医学影像)。
举个具体案例:一张黑白文字图像,文字区域的灰度值较低(接近0,纯黑),背景区域的灰度值较高(接近255,纯白),设定阈值T=128,将灰度值≤128的像素标注为文字(目标区域),灰度值128的像素标注为背景,就能快速实现文字与背景的拆分,这就是单阈值分割的实操逻辑。
阈值分割法的核心优势是“计算简单、效率高”,无需复杂的特征提取和模型训练,能够快速处理大批量简单图像;其核心局限是“适应性差”,仅适用于目标与背景特征差异明显、背景单一的图像,对于背景杂乱、光照不均、目标与背景灰度重叠的复杂图像,分割精度会大幅下降(如逆光拍摄的图像、多目标重叠的图像)。
2. 边缘检测分割法:基于边缘特征的拆分
边缘检测分割法的核心逻辑是“先检测图像中的边缘(目标与背景、不同目标之间的边界),再基于边缘轮廓,将图像拆分为若干个子区域”——核心假设是:不同子区域之间的边缘,像素特征会发生突变(如灰度值、颜色值突变),通过边缘检测算法可以捕捉这些突变,进而确定子区域的边界。
这种方法的核心步骤分为两步:第一步,边缘检测,通过边缘检测算子(如Sobel算子、Canny算子、Prewitt算子),提取图像中的边缘像素(边缘像素的灰度值突变明显),得到边缘图像;第二步,边缘连接与区域划分,将离散的边缘像素连接成完整的边缘轮廓,根据边缘轮廓,将图像拆分为不同的子区域。
例如,一张包含圆形和方形的图像,圆形和方形的边缘像素灰度值突变明显,通过Canny算子检测出边缘轮廓后,将圆形轮廓和方形轮廓内部的像素分别标注为两个子区域,就能实现圆形和方形的拆分。
边缘检测分割法的核心优势是“能够精准捕捉目标的边缘轮廓”,适用于目标轮廓清晰、边缘明显的图像(如工业零件的轮廓分割、简单几何图形的分割);其核心局限是“对噪声敏感”,如果图像中存在噪声(如椒盐噪声、高斯噪声),会导致边缘检测出现误差,离散的边缘无法连接成完整的轮廓,进而影响分割精度;同时,对于边缘模糊、无明显边缘的图像(如灰度渐变的图像),无法实现有效分割。
3. 区域生长分割法:基于像素相似性的聚类拆分
区域生长分割法的核心逻辑是“从一个或多个种子像素(人工指定或算法自动选择)出发,逐步将与种子像素特征相似的像素(如灰度值、颜色值、纹理特征相似)合并为一个子区域,直到没有符合条件的像素可合并,最终形成多个互不重叠的子区域”——核心是“像素相似性聚类”,模拟人类视觉中“从局部到整体”的识别逻辑。
这种方法的核心步骤分为三步:第一步,选择种子像素,种子像素可以是人工指定的关键像素(如目标的核心像素),也可以是算法自动选择的像素(如灰度值处于峰值的像素);第二步,设定相似性准则(如灰度值差值≤5、颜色值相似度≥0.9),判断周围像素与种子像素是否相似;第三步,区域生长,将相似的像素合并到种子像素所在的区域,重复这一过程,直到所有像素都被划分到对应的区域。
例如,一张包含红色苹果和绿色叶子的图像,选择苹果核心的红色像素作为种子像素,设定相似性准则为“RGB颜色值与种子像素的差值≤30”,逐步将周围的红色像素合并为苹果区域;再选择叶子核心的绿色像素作为种子像素,逐步合并绿色像素为叶子区域,最终实现苹果与叶子的拆分。
区域生长分割法的核心优势是“分割精度较高,能够捕捉目标的细节轮廓”,适用于目标与背景特征相似但存在局部核心区域的图像(如医疗影像中的病灶分割、自然场景中的目标分割);其核心局限是“效率较低”,需要逐像素判断相似性,处理大批量、高分辨率图像时速度较慢;同时,种子像素的选择和相似性准则的设定,对分割结果影响较大,容易出现过分割(将同一目标拆分为多个区域)或欠分割(将多个目标合并为一个区域)的问题。
4. 聚类分割法:基于特征聚类的自动拆分
聚类分割法的核心逻辑是“将图像中的所有像素看作样本,提取每个像素的特征(如灰度值、颜色值、纹理特征),通过聚类算法将特征相似的样本(像素)聚为一类,每一类对应一个子区域,实现图像的自动拆分”——与区域生长法不同,聚类分割法无需种子像素,完全通过算法自动聚类,自动化程度更高。
常用的聚类算法有K-Means聚类、模糊C均值聚类(FCM)、层次聚类等,其中K-Means聚类是最常用的方法,其核心逻辑是:先设定聚类数量K(如K=3,对应目标、背景、中间区域),随机选择K个聚类中心;再计算每个像素到各个聚类中心的距离,将像素划分到距离最近的聚类中心所在的类别;然后更新聚类中心(取每个类别的像素特征均值作为新的聚类中心),重复这一过程,直到聚类中心不再变化,最终得到K个互不重叠的子区域。
例如,一张包含蓝天、白云、大地的图像,提取每个像素的RGB颜色特征,设定K=3,通过K-Means聚类,将颜色相似的像素分别聚为三类(蓝色像素聚为蓝天类、白色像素聚为白云类、褐色像素聚为大地类),就能实现蓝天、白云、大地的自动拆分。
聚类分割法的核心优势是“自动化程度高,无需人工干预,适用于大批量图像的分割”,适用于目标与背景特征差异不明显、多目标共存的复杂图像(如自然场景图像、监控图像);其核心局限是“对特征提取的精度要求较高”,如果特征提取不精准,会导致聚类错误,出现分割偏差;同时,聚类数量K需要人工设定,不同图像的最优K值不同,难以适配所有场景;此外,聚类算法的计算复杂度较高,处理高分辨率图像时效率较低。
(三)深度学习分割技术:目前主流的精准拆分方法
传统机器学习分割技术,无论是阈值分割、边缘检测,还是聚类分割,都存在一个核心痛点:“特征提取依赖人工设计”,工程师需要手动设计像素的特征(如灰度、颜色、纹理),而人工设计的特征往往无法适配复杂场景(如光照不均、多目标重叠、背景杂乱),导致分割精度有限。
随着深度学习技术的发展,基于深度学习的图像分割技术应运而生,其核心逻辑是“通过深度神经网络(如CNN、Transformer)自动提取像素的底层特征、中层特征和高层语义特征,无需人工设计特征,再通过网络输出像素级的分类结果(分割掩码),实现精准的图像拆分”——核心优势是“自动特征提取、分割精度高、适配复杂场景”,目前已成为计算机视觉中“拆分图像”的主流技术,占据了90%以上的实际应用场景。
深度学习分割技术的核心是“分割网络”,不同的分割网络,其结构设计、特征提取逻辑、分割精度存在差异,以下重点拆解目前最主流、最常用的4种分割网络,详细讲解其原理、优势与适用场景:
1. FCN(全卷积网络):深度学习分割的“开山之作”
FCN(Fully Convolutional Networks,全卷积网络)是2015年提出的深度学习分割网络,是第一个将CNN应用于图像分割的网络,被誉为“深度学习分割的开山之作”——它打破了传统CNN只能处理固定尺寸图像、输出类别标签的局限,通过“全卷积化”改造,实现了对任意尺寸图像的像素级分类,为后续所有深度学习分割网络奠定了基础。
FCN的核心结构与原理:FCN基于传统的CNN网络(如AlexNet、VGGNet)改造而来,核心改造是“将CNN的全连接层替换为卷积层”,使得网络的输出不再是固定维度的类别向量,而是与输入图像尺寸对应的“分割掩码”(每个像素对应一个类别概率)。其核心步骤分为三步:
第一步,特征提取,通过CNN的卷积层、池化层,自动提取输入图像的底层特征(边缘、纹理)、中层特征(局部结构)和高层语义特征(目标类别),随着网络层数的加深,特征图的尺寸逐渐缩小(池化层的作用),特征的语义信息逐渐增强。
第二步,上采样(反卷积),由于特征提取过程中特征图尺寸缩小,无法与输入图像尺寸对应,因此需要通过上采样(反卷积)操作,将缩小的特征图放大到与输入图像相同的尺寸,得到初步的分割掩码。
第三步,像素级分类,通过最后的卷积层,将上采样后的特征图映射为像素级的类别概率(每个像素对应多个类别的概率),选择概率最大的类别作为该像素的类别,最终得到精准的分割掩码。
FCN的核心创新点是“全卷积化”和“上采样”,实现了“端到端”的图像分割(从输入图像直接输出分割掩码),无需人工干预特征提取;其核心优势是“分割速度快、适配任意尺寸图像”,适用于大批量、实时性要求较高的简单分割场景(如简单目标分割、背景拆分);其核心局限是“分割精度有限,尤其是边缘分割不够精准”,由于上采样过程中会丢失部分细节特征,导致目标边缘出现模糊、锯齿状,无法适配高精度需求的场景(如医疗影像分割、自动驾驶感知)。
2. U-Net:医疗影像分割的“黄金标准”
U-Net是2015年提出的深度学习分割网络,最初是为医疗影像分割设计的,由于其分割精度高、能够捕捉目标细节,目前已成为医疗影像分割的“黄金标准”,同时也广泛应用于其他高精度分割场景(如工业缺陷分割、小目标分割)。
U-Net的核心结构与原理:U-Net的网络结构呈“U”型,因此得名,核心结构分为“编码器(Encoder)+ 解码器(Decoder)+ 跳跃连接(Skip Connection)”三部分,其核心创新点是“跳跃连接”,解决了FCN上采样过程中细节特征丢失的问题,实现了高层语义特征与底层细节特征的融合。
具体来说,U-Net的工作流程分为三步:
第一步,编码器(左侧U型):由卷积层和池化层组成,核心作用是“提取图像的高层语义特征”——通过多次卷积和池化操作,逐步缩小特征图的尺寸,增强特征的语义信息(如判断像素是否属于病灶),同时保留每一层的底层细节特征(如病灶的边缘、纹理)。
第二步,解码器(右侧U型):由反卷积层(上采样)和卷积层组成,核心作用是“恢复图像的细节特征,生成精准的分割掩码”——通过多次反卷积操作,逐步放大特征图的尺寸,同时通过“跳跃连接”,将编码器对应层级的底层细节特征(边缘、纹理)融合到解码器中,弥补上采样过程中丢失的细节。
第三步,输出分割掩码:通过最后的卷积层(1×1卷积),将解码器输出的特征图映射为像素级的类别概率,得到与输入图像尺寸相同、细节精准的分割掩码。
U-Net的核心优势是“分割精度高、细节捕捉能力强”,尤其是边缘分割精准,能够适配小目标、边缘模糊的复杂场景(如医疗影像中的病灶分割、工业零件的缺陷分割);其核心局限是“分割速度较慢”,由于需要融合多层特征,计算复杂度较高,处理高分辨率图像时速度较慢,难以适配实时性要求极高的场景(如自动驾驶实时感知);同时,U-Net对小样本数据敏感,需要大量标注数据才能达到最优分割效果。
3. Mask R-CNN:实例分割的“主流算法”
Mask R-CNN是2017年提出的深度学习分割网络,基于Faster R-CNN(目标检测网络)改造而来,核心定位是“实例分割”——既能够实现目标的检测(框选目标位置、分类目标类别),又能够实现像素级的实例分割(区分同一类别的不同实例),是目前实例分割的主流算法,广泛应用于多目标实例分割场景(如智能安防、自动驾驶、机器人视觉)。
Mask R-CNN的核心结构与原理:Mask R-CNN的核心结构是“Faster R-CNN + 掩码分支(Mask Branch)”,在Faster R-CNN的基础上,增加了一个专门用于生成分割掩码的分支,实现了“检测+分割”的一体化。其核心步骤分为四步:
第一步,特征提取,通过CNN backbone(如ResNet)提取输入图像的特征图,为后续的目标检测和实例分割提供特征支撑。
第二步,候选区域生成,通过RPN(区域提议网络),在特征图上生成大量可能包含目标的候选区域(边界框),筛选出具有较高目标概率的候选区域。
第三步,目标检测分支,对筛选后的候选区域进行分类(判断目标类别)和边界框回归(优化候选区域的位置,使其更精准),得到目标的边界框和类别标签。
第四步,掩码分支(核心),对每个候选区域,通过卷积层和上采样操作,生成与候选区域尺寸对应的分割掩码(二进制掩码,1表示属于目标像素,0表示不属于目标像素),实现每个实例的像素级拆分,同时区分同一类别的不同实例。
例如,一张包含3只猫的图像,Mask R-CNN不仅能框出每只猫的位置、标注“猫”的类别,还能生成3个分割掩码,分别标注每只猫的像素区域,清晰区分3只不同的猫(实例),这是语义分割无法实现的功能。
Mask R-CNN的核心优势是“兼顾检测与分割,实例分割精度高”,能够适配多目标、重叠目标的实例分割场景,实用性极强;其核心局限是“分割速度较慢”,由于需要同时完成目标检测和实例分割,计算复杂度较高,难以适配实时性要求极高的场景(如自动驾驶实时感知);同时,对于小目标、密集目标的分割精度,还有提升空间。
4. Transformer-based分割网络:复杂场景的“精准解决方案”
随着Transformer技术在计算机视觉领域的应用,基于Transformer的图像分割网络应运而生(如SegViT、Mask2Former),其核心逻辑是“通过Transformer的自注意力机制,捕捉图像的全局上下文特征,解决CNN网络局部感受野的局限,实现更精准的分割”——核心优势是“全局特征捕捉能力强,适配复杂场景(如多目标重叠、背景杂乱、光照不均)”,目前已成为高端图像分割场景的主流选择。
传统的CNN分割网络(如U-Net、FCN),其核心局限是“局部感受野”,只能捕捉图像的局部特征,无法很好地捕捉全局上下文特征(如目标与目标、目标与背景之间的关联),导致在复杂场景中出现分割偏差;而Transformer的自注意力机制,能够计算每个像素与图像中所有其他像素的关联,捕捉全局上下文特征,从而更精准地判断像素的类别。
以SegViT(分割视觉Transformer)为例,其核心结构与原理:SegViT将图像划分为若干个图像块(Patch),将每个图像块转化为向量,输入到Transformer编码器中,通过自注意力机制,捕捉每个图像块与其他所有图像块的关联(全局特征);再通过Transformer解码器,将全局特征与局部细节特征融合,生成像素级的分割掩码;最后通过分类层,得到每个像素的类别,实现精准分割。
基于Transformer的分割网络,核心优势是“全局特征捕捉能力强,分割精度高,适配复杂场景”,适用于多目标重叠、背景杂乱、光照不均的高端分割场景(如自动驾驶实时感知、医疗影像高精度分割、智能安防复杂场景分割);其核心局限是“计算复杂度高、分割速度慢、对硬件算力要求高”,需要高性能的GPU支撑,难以适配移动端、嵌入式等算力有限的场景;同时,模型参数较多,需要大量标注数据才能达到最优效果。
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读
关闭