一种加权协同显著性检测方法 操晓春,张宝,冯伟,陶志强* 作者简介:操晓春(1980), 男, 研究员, 计算机视觉. E-mail: caoxiaochun@iie.ac.cn (天津大学计算机科学与技术学院,天津,300072) 5 摘要:协同显著性检测的任务是自动检测多幅图像中所存在的共同显著区域。近几年提出了 若干种显著性检测方法。尽管他们都分别有各自的优点,但也存在各自的缺点。没有任何一 种独立的方法能够在不同类型的案例中都得到最优的结果。本文提出了一种能够自适应地结 合多种显著性检测的方法(AWS)。其性能要优于每一个独立的方法。融合过程首先计算 多幅显著性结果的自适应权值,然后使用所获权值对多幅显著性结果进行线性加权。本文提 10 出了一种具有一般性的协同性评价标准,利用这种标准,可以决定每一个参加融合的显著性 结果的较优权值。在标准数据库上的实验结果证明,本文的方法可以得到较好的协同显著性 检测结果。 关键词:计算机视觉;协同显著性; 自适应权值 中图分类号:TP39 15 An approach to weighted co-saliency CAO Xiaochun, ZHANG Bao, FENG Wei, TAO Zhiqiang (TianJin University Computer Science, Tianjin, 300072) Abstract: The task of co-saliency detection aims at automatically discovering common salient regions 20 across multiple images. Although several saliency detection strategies have been proposed in recent years, they have respective pros and cons. That is to say, none of them can claim to be the best in different cases from a specific standpoint.This paper presents a fusion scheme to adaptively take into account multiple saliency maps, which results in better performance than each saliency map constructed individually. The fusion is based on a linear combination of multiple saliency maps with 25 adaptive weights. In addition, we propose a general consistency criterion to automatically determine the optimal weight of each individual saliency map. Experimental results on benchmark datasets demonstrate the satisfactory performance of the proposed method on co-saliency detection. Key words: computer vision; co-saliency; adaptive weight 30 0 引言 视觉注意是对人类视觉行为的一种有效模拟,旨在通过计算空间显著图来将显著物体从 它周围的环境中发现出来。这一过程,也可以看作是对计算资源的一种优先分配。单一图像 的显著性算法关注的是如何在一幅图像中检测出显著物体。近年来,这种算法已经成功地应 用在多个计算机视觉领域中,比如目标识别、图像分割和图像数据库查询。常用的自底向上 35 的,即基于底层特征的显著性检测算法可被粗略地分为生物学启发方法和计算导向算法。第 二类方法一般处理底层特征比如颜色、边的方向和运动方向等。Itti 等人[1]利用高斯差的方 法(IT)来估计这些特征。Cheng 等人[2]提出了基于整体对比的显著性提取方法(RC),这种方 法同时考虑了全局对比的差异和空间关系,简单高效并且能够得到全分辨率的显著性检测图 像。但是,单一图像的显著性提取算法不能解决从具有相似物体的多幅图像中提取显著性物 40 体的问题。 协同显著性检测已经成为了计算机视觉领域内最重要并且富于挑战性的问题之一, 而且具有广泛应用,例如协同分割、协同特征检测和目标的协同识别等。近几年,一些协同 显著性的检测方法被提出,由于出发点不同,他们各自存在着优缺点。本文提出了一种采用 自适应权值的协同显著性检测方法,发挥多角度的优势,同时减少各自缺点的影响。 45 本文接下来的组织如下,第一节介绍了协同显著性检测研究的相关工作,第二节详细阐 明本文的方法。第三节通过实验验证了所提方法的有效性,最后,对所做工作进行总结并提 出了进一步研究的方向相关工作。 1 相关工作 Chang 等人考虑单一图像中的显著区域,然后将注意力放在在大多数图像中出现频率较 50 高的显著物体上[3]。但是如果对每一张图像的单显著性提取的效果不好,这种方法得到的协 同显著性结果会非常差。Chen 采用了一种分布式的表达,这种表达方式可以描绘图像中稀 疏的特征[4]。基于一对图像的特征分布,他提出了一种算法来获取预先注意力反应,然后据 此来识别图像中相似的显著物体。但是,这种方法很难推广到图像数超过两幅的情况。Li 等人提出了一种针对一对图像的协同显著性检测方法[5](CSM),通过线性加权平均三幅单显 55 著图和两幅多显著图。但是这些显著图的权值都是固定的。本文将改进固定权值的方法。 所提方法中,自适应权值是通过计算图像的特征直方图之间的一致性能量得到的。图像 的特征直方图通过输入图像的显著性值和颜色信息来获得。一致性能量的概念同协同分割能 量函数[6]的概念类似。协同分割需要两幅图像中的前景所对应的直方图之间的一致性,才能 同时分割一对图像。本文采用的方法与之比较有两点不同。首先,本文在计算一致性能量时, 60 所使用的直方图表示的是整张图像而不仅仅是图像的前景。其次,协同分割利用图像的前景 之间的相似性来得到前景。这样,就需要最小化能量函数,具有较高的计算开销。本文采用 的方法仅需计算能量值来估计每一幅显著图能够得到协同显著性的可能性,无需最小化能量 函数,所以效率更高。 目前,有多种协同分割的方法涉及到直方图的一致性能量计算。Rother 等人利用1 L 范 式来计算直方图之间的相似性[6]。Mukherjee 等人用2 65 L 距离的平方来度量,并且将它当作一 种代数约束[7]。Hochbaum 等人通过奖励两个前景的直方图而不是去惩罚它们的不同获得了 相同的效果[8]。以上这些方法都只能应用于两张输入图像的情况。Mukherjee 等人提出的方 法对输入图像的数目没有限制。不仅如此,它还提供了尺度不变性[9],即输入图像的大小不 必一致。本文提出的方法可以解决任意数目输入图像的协同分割。 70 2 自适应权值方法 本文提供的算法不仅依据图像的颜色特征而且依据由显著图获得的每一个像素的显著 值来计算图像之间的一致性,在显著性和图像特征都相似的情况下,这幅显著图应该获得较 高的权值。 具体来说, I i 表示输入图像, i j S 表示图像i 所采用的第j 幅的显著图, S i 表示图像i 75 的协同显著图。其中,1≤i≤N,1≤j≤M,N 代表输入图像数,M 代表参加融合的显著图的 总数。本文的目标是得到每一幅输入图像的协同显著图S i 。根据图像的颜色特征,本文将 图像中的每一个像素划分进其所对应的直方图的K 个直方图区间中去,这K 个区间将图像 的所有像素划分为K 个等价类。这样,每一张图像均可以用一个K 维度的直方图表示出来, 落在直方图的每一个区间内的像素被认为是相似的。在本文中, i H 表示图像I i 的直方图。接 80 下来,本文将计算所有图像的直方图之间的一致性。本文选择的方法可以用于多图像输入的 情况并且具有尺度不变性。这种性质,可以使输入图像的大小不必一致。 如果显著图对输入的N 幅图像检测到的显著性区域相似度高,那么向量1 H , 2 H … N H 的一致性就高。实际上,这可以通过这些向量之间是否具有较低的一致性能量来进行度量。 形式化地讲,令H = { 1 H , 2 H … N H }表示所有的显著性直方图,度量H 的秩接近1 的程度 85 是一种有效估计其一致性的的方式。本文通过对矩阵H 进行奇异值分解,得到H 的两个奇 异值1 s 和2 s ,并以此得到矩阵H 的秩约束: 2 1 E = s / s (1) 并且,依照上述公式,可以得到每一幅显著图的权值计算公式: Σ = − − = M j j i i E w E 1 exp( ) exp( ) (2) 90 从上述公式中可以看到,每一个显著图的权值是由这个显著图所对应的H 矩阵的一致性能 量来决定的,能量值越低即说明H 的秩越接近1,而这反映出这幅显著图检测到的显著性区 域有较高的一致性。这样,由公式(2)本文可以赋给低能量值的显著图一个较高的权值。 公式(3)给出了图像I i 的协同显著图的计算方法,1≤i≤N。在公式(3)中, j w 代表了 权值,并且满足Σ = = M j j w 1 1。 Σ= = × M j i j j Si w S 1 95 (3) 归一化公式(3)中计算得到的显著性值至[0,1]区间。式(1)-(3)表明,如果一个像素 被大多数参加融合的显著图选择为显著的,那么该像素会具有较高的显著性值。否则,它将 会被视为背景像素。在本文中,每一个显著图的权值均由与之对应的整幅图像的直方图的一 致性决定,即自适应权值方法(an Approach to Weighted co-Saliency, AWS)。它将不同的显著 100 图乘以相应的自适应权值后线性结合起来。 本文在融合过程中使用了5 幅显著图,包括3 幅单图像显著图(SISM)和2 幅多图像 显著图(MISM)。这一点与CSM 相同,并且本文使用的2 幅多图像显著图均来自CSM[5]。 但是需要注意的是,在CSM 中每一幅显著图的权值都是常量,而在本文的方法中显著图的 权值是自适应的,它随着输入图像的改变而自适应调整。单显著图(SISM)关注的是局部 105 的显著性描述,本文采用的分别是Spectral Residual 显著图(SR)[9]、frequency-tuned 显著 图(FT)[10]和基于全局对比的显著图(RC)[2]。多幅图像显著图(MISM)更加关注图像之 间相似的部分。利用图像金字塔分解可以得到两幅图像之间的多层次图,图中任两个节点之 间的相似度可以通过SimRank 算法由两点之间的距离计算得到[11]。在计算多幅图像显著图 的过程中,可以采用两种不同的区域特征描述符。这两种描述分别是颜色和纹理,本文将分 110 别由这两种描述符计算得到的显著图称为CC 和CP。 本文在实验中只计算两张图像之间的协同显著性,所以设定N=2。但是,本文的方法可 以有效地为两幅以上的图像计算协同显著性。由上所述,图像的颜色信息和显著性信息均相 似的协同显著性应该获得更高的权值。对于图像中的每一个像素,本文使用R、G、B 和S 来描述图像对应的直方图。其中R、G、B 分别为颜色的3 通道,而S 代表了该像素在某一 115 幅显著图中得到的显著性值。本文将上述这4 个量都量化到10 个等分区间,即使用一个 10000 维的向量来描述一幅图像。 3 实验结果 3.1 数据库 为了评价本文的实验结果,本文采用Li 等人[5]在文章中所提供的公共数据库来测试算 学术论文网Tag:代写硕士论文 代写论文 代写MBA论文 代写博士论文 |