基于内容的视频检索课题报告(4700字)

发表于:2020.10.15来自:www.fanwen118.com字数:4700 手机看范文

基于内容的视频检索课题报告

视频是集图像、声音、文字等为一体的综合性媒体。随着互联网技术的发展和网络带宽的提升,网络视频数据量成爆炸式增长,如何对互联网上的海量视频数据进行搜索已成为国内外的研究热点,是新一代搜索引擎的主要研究内容。视频搜索是通过对海量的非结构化的视频数据进行结构化分析,提取视频内容的特征(包含语义特征),在此基础上实现从内容上对视频进行检索。与传统文本搜索相比,视频搜索存在很大的技术难度。首先,视频内容的特征难以提取与处理,特别是语义特征的提取存在很大的困难。其次,视频搜索在索引建立、查询处理以及人机交互等方面都与传统的文本搜索存在很大区别,还有一些技术难题有待解决。

这里提到CBVR(基于内容的视频检索)就不得不让人联想到CBIR(基于内容的图片检索),CBIR的核心是使用图像的可视特征对图像进行检索。本质上讲,它是一种近似匹配技术,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的技术成果,其中的特征提取和索引的建立可由计算机自动完成,避免了人工描述的主观性。用户检索的过程一般是提供一个样例图像(Queryby Example) 或描绘一幅草图(Queryby Sketch) ,系统抽取该查询图像的特征,然后与数据库中的特征进行比较,并将与查询特征相似的图像返回给用户。CBIR 的实现依赖于两个关键技术的解决:图像特征提取和匹配。图像特征提取分为两类:①低层视觉,其内容主要包括颜色、形状、纹理等;②语义内容,它包含高层的概念级反应(如“海上升明月”),需要对物体进行识别和解释,往往要借助人类的知识推理。 由于目前计算机视觉和图像理解的发展水平所限,使得CBIR还无法真正支持基于语义的图像检索,所以目前研究得较多也比较成熟的检索算法大部分是基于图像的低层特征的,即利用图像的颜色、纹理、形状等特征来检索。提取后的图像特征数据需要经过索引、降维等处理。首先,图像由特征向量表示,而这些特征向量一般都是高维向量, 在庞大的图像数据库中,对高维向量进行顺序比较的过程是相当费时的。在实际应用过程中, 为了让基于CBIR的图像检索系统能够真正适合大型的图像数据库, 提高检索效率,尽可能减少查询时的特征矢量比较时间,往往将降维技术(PCA主成分分析法等)和多维索引技术结合起来。

图像相似度是指人类对图像内容认识上(即语义)的差异,导致通过计算查询样图和候选图像之间在视觉特征上存在距离。如果这个距离满足一定条件,我们则可以说这两

图像相似度匹配。当然,如果能将语义特征和视觉特征结合起来, 相似度匹配程度会更高,检索结果会更让人满意,但这是目前研究的一大难题。

基于内容的视频检索步骤:

一、 将视频序列分割为镜头

镜头检测的关键是确定从镜头到镜头的转换处,并利用镜头之间的转换方式找到镜头图像之间的差别。镜头的切换方式有两种:突变是指从一个镜头直接切变到另一个镜头;渐变是指从一个镜头慢慢切变到另一个镜头。常用的镜头检测方法主要有以下几种:

1)基于像素的镜头检测方法

A模板匹配法(对应像素法)

将两帧图像对应象素差的绝对值之和作为帧间差,如果前后两帧的帧间差变化超出某个阈值,则认为有镜头的切换。

优缺点:对检测突变镜头很有效,但对摄像机和物体的运动非常敏感,当运动较大时,相邻两帧的差异往往会超过预定的阈值,从而产生误检。

B直方图法 该方法利用帧与帧的直方图比较来检测镜头,是使用得较多的计算帧间差的方法。

基本原理:将颜色空间分为一个个离散的颜色小区间,然后计算落人每个小区间的象素数目,得到图像的直方图统计,通过比较两帧图像的直方图统计得到帧间差。

优缺点:不考虑像素的位置信息,抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。

2) 基于边缘的方法

3) 基于模型的方法

二、在镜头内选择关键帧

关键帧的选取的条件:

1)必须能够反映镜头中的主要事件,因而描述应尽可能准确完全.

2)为便于管理,数据量应尽量小,且计算不宜太复杂。

主要方法有:基于光流运动分析的关键帧提取、基于视频聚类的关键帧提取、基于动态帧的关键帧提取等。

三、提取镜头的特征及关键帧的视觉特征存入视频数据库

视频分割成镜头后就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频聚类和检索依据。这里所提取的特征课分为动态特征及静态特征。

1)颜色特征颜色是彩色图像最底层、最直观的物理特征,通常对噪声,图像质量的退化,尺寸、分辨率和方向等的变化具有很强的鲁棒性,是绝大多数基于内容的图像和视频检索的多媒体数据库中使用的特征之一。颜色特征的描述方法主要有以下四种:

颜色直方图(ColorHistogram)

它是最简单也是最常用的颜色特征,描述了图像颜色的统计分布特性,具有平移、尺度、旋转不变性。其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化,然后统计每一个量化通道在整幅图像中所占的比重。

常用的颜色空间有RGB,CIE,HSI,HSV空间等,主要的量化方法有最重要信息位、颜色空间划分、颜色空间聚类、参考颜色、图像分割等,文献中讨论了对这些方法进行了讨论和总结。由于颜色直方图缺乏颜色的空间分布信息,改进的方法包括在颜色索引时加入空间位置信息和基于区域的颜色查询。最简单的方法是子窗口直方图法,即将图像分割成子图像,一一建立索引。另一文献中将图像分成了大小相等的九个子图像,然后统计每个子图像中的颜色直方图。

颜色相关图

其主要思想是用颜色对相对于距离的分布来描述信息,它反映了像素对的空间相关性,以及局部像素分布和总体像素分布的相关性,并且容易计算,特征范围小,效果好。

颜色矩

其基本思想是在颜色直方图的基础上计算出每个颜色通的均值、方差、偏差,用这些统计量替代颜色的分布来表示颜色特征。它具有特征量少,处理简单的特点。

颜色一致性矢量

本质上是一种引入空间信息改进的直方图算法,统计了图像中各颜色最大区域的像素数量。通过分离开一致性像素和非一致性像素,比直方图算法具有更好的区别效果。

2)纹理是图像的重要特征之一,通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量,其本质是刻画像素的邻域灰度空间分布规律。纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法。

统计法分析纹理的主要思想是通过图像中灰度级分布的随机属性来描述纹理特征。最简单的统计法是借助于灰度直方图的矩来描述纹理,但这种方法没有利用像素相对位置的空间信息。

为了利用这些信息,Haralick 等人提出了用共生矩阵来表示纹理特征。该方法研究了纹理的空间灰度级相关性,构造出一个基于图像像素间方向和距离的共生矩阵,并且从矩阵中提取出反差、能量、熵、相关等统计量作为特征量表示纹理特征。

Tamura 等人基于人类视觉的心理学研究后提出了一些不同的方法来描述纹理特征,给出了几个不同的描述纹理特征的术语:粗糙度(Coarseness) 、对比度(Contrast) 、方向(Directionality) 、线性度(Linelikeness) 、规则度(Regularity) 、粗略度

(Roughness) 等。Tamura 纹理和共生矩阵表示的主要区别在于:前者的所有纹理属性都是视觉意义上的,而后者的某些纹理属性不具有视觉意义(如信息熵) 。这一特点使得Tamura 的纹理表示在图像检索中使用得较多。QBIC 和MARS都进一步证明了这种表示方法。

结构法分析纹理的基本思想是假定纹理模式由纹理基元以一定的、有规律的形式重复排列组合而成,特征提取就变为确定这些基元并定量分析它们的排列规则。Carlucci曾提出一个使用直线段、开放多边形和封闭多边形作为纹理基元的纹理模型,其排列规则由一种图状语法结构定义。Lu and Fu给过一种树型语法结构表示纹理,他们将纹理按照9 ×9 的窗口进行分割,每个分解单元的空间结构表示为一棵树。因为实际的纹理大都是无规则的,因此结构法受到很大限制。

模型法利用一些成熟的图像模型来描述纹理,如基于随机场统计学的马尔可夫随机场、子回归模型,以及在此基础上产生的多尺度子回归模型 (MultiResolution

Simultaneous Autoregressive, MRSA) 等。这些模型的共同特点是通过少量的参数表征纹理。MRSA 区分不同纹理模式的能力较强,但同时计算开销也较大。

频谱法

频谱法借助于频率特性来描述纹理特征,包括傅里叶功率谱法、Gabor 变换、塔式小波变换( Pyramid Wavelet Transform ,PWT)、树式小波变换( Tree Wavelet Transform,TWT)等方法。Manjunath and Ma实验指出, Gabor 特征提供了最佳的模式检索精度,检索性能优于TWT 和PWT,略微优于MRSA ,缺点是计算速度慢,其旋转不变性和尺度不变性仍有待讨论。

3)视频除了具有一般静态图像的特征外(参考基于内容的图像检索相关技术CBIR),更具有动态特征。而动态特征往往也是视频检索时用户给出的主要内容。

运动特征反映了视频的时域变化,运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等,但这些方法计算量大。Tonomura等人提出了视频X光图像分析方法,可以用来检测类似的运动。将整个视频序列沿时间轴进行切片,从切片图像中分析运动情况。视频的运动变化在切片上将变现为一系列有序的条纹变化。

通过对视频的研究发现,当目标运动时,其背景往往变化迅速,而目标在大小上的不断变化表现为像素色彩的扩张。因此,可采用视频切片技术,通过追踪某一位置线上图像目标的色彩变化来得到运动目标的大小变化。时下用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小的度量,在新闻视频中取得了较好的效果。

四、根据用户提供的搜索条件进行匹配

1)基于关键帧的检索:视频被抽象为关键帧后,搜索就变成按照某种相来检索数据库中与查询描述相似的关键帧。通常使用的查询方法是通过目标特征说明(直接)的查询和通过可视实例(示例)的查询。检索时,用户也可以指定使用特定的特征集。如果检索到关键帧,用户就可以利用播放来观看它说代表的视频片段。浏览可以跟随检索,作为检验检索到的关键帧的上下文边界联系。浏览也可以初始化查询,即当浏览时,用户可以选择一个图像来查询所有与该图像相似的关键帧。图像相似度是指人类对图像内容认识上(即语义)的差异,导致通过计算查询样图和候选图像之间在视觉特征上存在距离。如果这个距离满足一定条件,我们则可以说这两图像相似度匹配。当然,如果能将语义特征和视觉特征结合起来, 相似度匹配程度会更高,检索结果会更让人满意,但这是目前研究的一大难题。通常可采用PCA主成分分析法进行匹配。

2)基于镜头动态的检索:基于镜头和主体目标的运动特征来检索镜头是视频查询的进一步要求。可以利用摄像机操作的表示来查询镜头,可以利用运动方向和幅度特征来检索运动的主体目标。在查询中还可以将运动特征和关键帧特征结合起来,检索出具有相似的动态特征但静态特征不同的镜头。

综上所述,可以总结出基于内容的视频检索技术的未来发展趋势:检索技术的多特征融合化、视频高层语义和底层特征的结合化、多维话索引技术、、视频检索反馈的交互化、CBVR的网络化。




第二篇:自拟课题检索报告1(附图)

信息检索报告

自拟课题检索报告1

自拟课题检索报告1

自拟课题检索报告1

自拟课题检索报告1

更多类似范文
┣ 关于中文数据库信息检索的检索报告 3600字
┣ 文献检索报告 2000字
┣ 文献检索报告模板 1900字
┣ 文献检索报告范文 3000字
┣ 更多检索报告
┗ 搜索类似范文

更多相关推荐:
检索报告2400字

号学线名姓业专封级院学密本科课程考查专用封面作业题目信息检索课程报告所修课程名称信息检索修课程时间20xx年2月至20xx年5月完成作业日期课程结束后一月内评阅成绩评阅教师签名20xx年月日说明1本报告总计50...

文献检索报告2900字

武汉工程大学文献综合检索实习报告姓名吴桂艳学号1005020xx9班级网络工程01班成绩一自定选题中文题名Matlab在数字图像处理中的应用英文题名ApplicationofMatlabinDigitalIma...

专题文献检索过程报告1500字

检索课题发展体育旅游的作用和意义1课题分析子课题为发展体育旅游的作用和意义体育旅游业是我国旅游业中的重要组成部分随着人们物质文化生活水平的不断提高和体育运动在全国范围内的普及越来越多的人投身于体育旅游中体育旅游...

专栏推荐
大家在关注

地图地图CC