大数据时代基于中文标记的图像视频综合检索方法研究

时间：2021-11-15 23:55:40

关键字：大数据中文标记图像视频综合检索

手机看文章

扫描二维码
随时随地手机看文章

[导读]摘要：随着各类物联网、云计算等示范工程的试点应用，人类步入了大数据时代。图像、视频等多媒体综合应用是大数据时代的基本特征之一，文章综合研究了基于OCR、基于图像特征和基于标记的图像视频检索技术，提出了一种基于中文标记的数据中心视频图像资源综合检索方法，以期为提高数据中心多媒体数据的可用性提供借鉴。

引言

随着传统数据中心向多媒体数据中心的发展，数据中心服务模式已经发生了翻天覆地的变化。大数据时代的核心特性有两个要点：一是一切都被记录，二是一切都被数字化。随着大数据时代的来临，它带来两个重大变化：一是数据量爆炸性增长，据统计，最近两年来国内各类机房产生的数据量大于2010年以前人类文明所产生的数据量的总和；二是数据来源极其丰富，特别是诸如图像、视频等非结构化数据所占比例逐年增长。从存储方面看，传统数据中心存储内容包括资源信息、业务信息、统计信息、指挥信息等，主要以结构化的数据表的形式存在，现在数据中心存储文本、数字、图像、视频、声音等多种数据形式。这些变化对数据中心检索技术要求越来越高，主要体现在：一是检索载体多样化。现代数据中心需要综合利用磁盘、磁带等综合性数据库。二是检索手段综合化。检索目标由单一的文本检索向文本、图片、视频、声音、地理信息多种目标发展。三是检索时机全域化。新数据文件增加不应中断向用户的服务，保障24h全天候检索的可用性。因此，为了更好地利用海量图像、视频等非结构化数据，提高图像视频数据的检索效率，同时提高图像视频数据的可用性,有必要对图像视频检索方法进行深入研究。

1图像视频检索在大数据时代的意义

多媒体信息包括文本、图像、音频、视频等信息。使用关键词检索，只能查询到媒体文件对应的文件名等特征，而无法对媒体文件内容进行查询，所以对于多媒体信息的查询应该不同于简单的文本信息的查询。随着越来越多的视频多媒体形成了海量文档，急需研究新一代的信息检索技术。

现代数据中心的发展具体来说，涉及数字化技术、超大规模数据库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机分析处理技术、信息抽取技术、数据挖掘技术、基于内容的检索技术、自然语言理解技术等。在众多技术门类中，对视频图像的检索显得尤为重要。本文主要研究基于内容匹配的数据中心图片视频资源的综合信息检索技术，为铁路、水路、公路、航空、交通保障等领域的数据中心建设以及综合性基础性中心多媒体检索技术的发展提供理论参考。

2国内外的研究现状及动态

国外基于关键镜头关键帧的视频检索技术已经发展了很多年，随着视频数据急剧增加，图像视频检索已经成为一个新的研究热点。从第一届DIAL’04（The first International Workshop on Document Image Analysis for Libraries）开始，图像视频检索就一直被当做专题来研究，近年来，数字图像视频检索受到了极大的关注，DIAL、ICDAR等每次研讨会议均对其进行专题讨论。但是，由于国外图片视频中标记大多采用英文形式，而我国数据中心中图片视频标记是中文的，中英文在笔画排列、字词句构成、组织方式等方面差异太大，他们的视觉特征明显不同，现有的很多方法无法直接被我们直接采用。为了研究我国海量中文图像数据的管理、检索、利用，因此必须研究具有我国自主知识产权的基于中文标记的数字中心图像视频资源综合检索方法。

2.1基于OCR的文档图像检索

在海量的视频图像数据中，其中一部分可进行正确的OCR识别，进行上下文标记,完全可用传统信息检索技术检索。对于各语系而言，其检索技术是相通的，只是OCR技术不同而已，但受到OCR技术的限制和视频图像本身质量的影响。在许多情况下，OCR识别结果并不尽人意，识别正确率对检索结果影响很大。目前，主要有两种容忍OCR识别错误的方法:一是对查询词进行扩充，估算OCR转换错误，并对OCR误差词进行检索；二是采用单词距离匹配的策略，主要是通过在矢量空间中进行词与词的匹配，计算出查询词与OCR识别目标的距离来排序。采取这两种检索误差容忍技术后，检索正确率明显提高，但统计显示，当OCR识别正确率低于75%时，视频图像检索质量将很难达到用户满意。

2.2基于图像特征的图像视频检索

视频资料中，大量的关键帧、镜头是不能进行OCR识别的，主要有以下几个方面原因：其一是技术限制。由于OCR技术本身的局限，对于非规则字体、复杂背景、图像质量差、字符严重形变/扭曲、字符分割不完整等情况，OCR无能为力。即使能部分识别正确，但需要大量的人工校正，效率很低。其二是功能限制。对于签字或者印章等需要用于确定性的具有法律效力的文件，不适合采用OCR进行识别。例如，史料文献、名人手迹、重要的人工标记与墨迹、书法书画等也只能以文档图像的格式呈现。

基于图像特征的检索技术已经被越来越多的专家学者所研究。基于图像特征的检索过程与CBIR(ContentBasedImageRetrieval)过程相似，但技术迥异。CBIR常用的颜纹理等基本特征不再有效，必须根据文档图像本身特点，抽取相应图像视频特征及规律进行检索，目前研究主要集中于基于内容相似性和基于关键词检索。基于文档凸显内容相似性的建设主要是抽取基于文档全局特征与基于帧图像的局部特征来进行。全局特征主要有字符纹理统计、直方图统计、字符投影分布、字符行统计等，而局部特征主要是字符图像块的区域宽度、位置与面积等。还可将帧页面分为多层网格，抽取每个网格特征，进行基于网格的相似性比较。为了克服网络尺寸最优选择的一些问题，Cesarini、Mairinai等利用基于MXY树进行检索，在图像区域分割时建立MXY,综合全局特征与MXY树结构特征形成特征矢量进行相似性比较。

2.3基于标记的图像视频检索

在基于空域语义上下文的概念标注优化中，Jiang等人基于概念之间的相关性学习得到一个语义图模型，在对某个镜头进行标注时，首先得到各个概念对于这个镜头的预测结果,然后利用这个图模型对预测结果进行平滑优化，并且在这个过程中考虑数据跨域的问题，即训练语义图模型的数据和对之进行优化的数据来自于不同的域，取得了较好的结果。Smith等人提出了一种DiscriminativeModelFusion(DMF)方法，该方法将不同概念检测子对镜头的输出概率形成一个向量，然后以这个向量为镜头特征进训练，并预测概念标注结果。Jiang等人对这个方法进行了修改，加入了用户提供的标注信息。这些方法的问题在于，它们受限于语义词典的大小，只在词典中的概念数目较少的时候证明比较有效。

3基于中文标记的数据中心视频图像资源综合检索方法

3.1主要技术原理

在大数据时代，针对数据中心中文视频图像的特征，本文研究提出一种基于中文标记的数据中心视频图像资源综合检索方法，主要技术原理框图如图1所示。

图1基于图像视频检索的数据中心存储体系结构和服务架构

3.2主要方法

好的存储结构是检索的前提和关键，也是检索的方法之一。本文所采用的检索方法采用一种复杂应用环境下数据中心体系结构和服务架构。

首先，采用特征描述的视频图像检索方式。特征提取是图像处理中的一个初级运算，也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分，那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算，输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。有时,假如特征提取需要许多的计算时间，而可以使用的时间有限制，一个高层次算法可以用来控制特征提取阶层，这样仅图像的部分被用来寻找特征。由于许多计算机图像算法使用特征提取作为其初级计算步骤，因此有大量特征提取算法被发展，其提取的特征各种各样，它们的计算复杂性和可重复性也非常不同。

其次，数据中心图像视频文档特征提取和索引建模技术是高效检索的关键。如前所述，视频内容本身包含丰富的视觉上下文信息，这些上下文信息是自然存在的，而不是相互独立的，一般可分为两类，即空域视觉上下文信息和时域视觉上下文信息。空域视觉上下文是指视觉帧内部的视觉信息之间存在的相关性。本项目针对空域视觉上下文信息和时域视觉上下文信息进行建模，为图像视频的快速检索提供基础。

4基于中文标记的图像视频综合检索特点

基于中文标记的图像视频综合检索方法主要有以下特点。首先是提出了特征描述方法。对于一个给定的视频镜头,在三维网格上进行采样，对于采样得到的点进行聚类，形成视觉词典，把每个采样点映射到特征空间离它最近的那个视觉词。这样，一个视频镜头就可以看作是一个由视觉词组成的立方体结构。然后,根据视觉词在立方体结构中的相对位置,把它们看做一个视觉词的序列，并用一个扩展的马尔科夫链对之进行建模。这样，视觉词在时空域中的关系可以用该模型中的状态转移矩阵进行描述，并和原始的Bag-of-words特征结合，作为视频内容的特征描述，可以有效提高其区分不同内容视频的能力。我们把该特征应用到两个不同的问题中，即视频概念标注和动作识别。

其次，提出一种两阶段的视频概念标注优化方法。思路大致如下：一方面，分别利用星型结构和链式结构的ConditionalRandomFiled(CRF，条件随机场)对视频中的空域语义上下文和时域语义上下文进行建模，并借用其训练预测方法完成优化过程。和现有方法相比，本文方法能够更为准确地对概念之间的相互关系进行描述。利用训练集中人工标注的语义信息，体现人类对于视频内容和语义概念的理解，该方法能够有效提高概念标注的结果。由于训练数据的局限性和问题本身的复杂性，基于语义上下文的优化方法不可能完美地对概念之间的关系进行建模，因此，本项目提出一种基于半监督学习的调整方法，作为基于语义上下文优化方法的有效补充：认为得分较高的镜头被进行了正确的标注，通过在视频镜头之间建立图结构，利用视觉上的相似性，采用半监督学习的方法用概念标注中置信度较高的优化结果对其余结果进行调整，能够进一步提高视频概念标注的准确率。

最后，提出一种基于颜色聚类和多帧融合的视频文字识别方法。主要思路大致如下：首先，在视频文字检测中，统一考虑了文字区域图像的两个明显特征致颜色和密集边缘，采用近邻传播聚类算法，基于图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到多个边缘子图中，使得在各个子图中检测文字区域更加准确。其次，在视频文字增强中，根据文字笔画强度图，过滤掉模糊文字区域，并综合平均融合和最小值融合，对在不同视频帧中检测到的，包含相同内容的文字区域图像进行融合，能够得到背景更为简单，笔画更为清晰的文字区域图像。再次，在视频文字提取中，一方面，通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够得到比现有的方法更好的二值化结果；另一方面，基于图像中文字与背景的颜色差异，利用颜色聚类进行噪声去除,能够更为有效地提高文字识别率。实验证明本文提出的基于中文标记的图像视频检索方法能够较好地完成视频图像检索。

5结语

大数据时代数据中心检索载体多样化、检索手段综合化、检索时机全域化，各类数据中心不仅存储容量急剧增加，而且视频、图像等多媒体数据比重逐年增加，因此提高检索效率，增加数据的可用性成为多媒体数据中心的重要任务。多媒体数据检索方式多样，检索原理复杂，目前还处于起步阶段,伴随我国经济社会的快速发展，大数据时代即将来临，各行各业数据的不断融合，图像视频检索必将大显身手。

20211115_619282d6d4029__大数据时代基于中文标记的图像视频综合检索方法研究