带有反馈标记的分布式多视点视频编码
范曼曼,门爱东**
作者简介:范曼曼,(1987-),女,硕士研究生,主要研究方向:通信与信息系统
通信联系人:门爱东,(1966-),男,教授,主要研究方向:图像传输与处理. E-mail: yef279@163.com
(北京邮电大学信息与通信工程学院,北京 100876)
5 摘要:分布式多视点编码是分布式视频与多视点视频的结合,各视频独立编码联合解码,从
而将复杂的计算从编码端移到解码端,适合多视点视频中摄像头能量及计算量受限的情况。
针对分布式多视点视频编码进行研究,提出了一种新的边信息生成方法。在解码端,同时采
用时间边信息和空间边信息,并且构造基于块的标记序列,然后将该标记序列从解码端传回
到编码端,辅助选择编码模式。仿真结果表明,该方法能够节省近90%的比特率,同时译码
10 后的图像质量在与当前的其他方法进行比较时并没有明显的变化。
关键词:分布式多视点视频编码;Wyner-Ziv 编码;模式选择;混合边信息生成
中图分类号:TM 393.03 文献标识码:A
0 引言
近年来,多视点视频编码(MVC)已经吸引越来越多的研究学者的关注。MVC 具有非
常广泛的应用,如多媒体监控系统、交通流量控制及军事、安防和医疗领域等。在大多数
MVC 系统中,视频之间的相关性同时采用时间相关性和不同视点之间的空间相关性[1]。为
35 达到有效的传输,MVC 方案中通常在编码端采用复杂的操作。然而,由于视频采集设备通
常受到功耗和计算能力等方面的限制,上述复杂的编码方式并不适合在MVC 系统中应用。
分布式视频编码(DVC)为上述要求提供了崭新的解决方案。其基本思想是Slepian-Wolf
和Wyner-Ziv 提出的分布式视频无损压缩理论[2]和有损压缩理论[3]。该理论表明,可以将编
码端的一部分计算量移到解码端实现,达到构造低复杂度编码器的目标,同时保持一定的编
40 码效率[4]。在DVC 系统中,各个帧独立编码,在解码端进行联合解码。其中,解码端边信
息的质量对整个系统的性能有最为重要的影响。许多研究学者,如Fernando[5-7]和B. Girod[4]
等,都有一系列的研究成果。
分布式多视点视频编码(DMVC)是多视点视频编码和分布式视频的结合,有时也被称
为多视点分布式视频编码(MDVC)。和DVC 不同的是,DMVC 除了可以从时间方向上获
45 得时间边信息外,还可以从视间方向上得到空间边信息。许多学者对两种边信息的生成及融
合方法进行研究。文献[8]中提出阈值处理方法,包括对参考帧的像素差值和运动矢量的幅值
进行阈值化;文献[10][11]利用参考摄像机的帧进行处理,再应用到当前摄像机;文献[12]提出
迭代边信息方法。文献[9]提出为更好地利用视间相关性,在编码端允许进行少量的信息交换。
本文中,摄像机之间编码端不允许信息交换,所有相关性都在解码端进行计算和利用。
50 采用类似[8]的参考帧的结构:对于每一个需要进行WZ 编码的帧使用四个不同的关键帧作为
参考帧,在解码端生成最终的边信息。同时,构造一个基于块的标记图像,用不同的符号来
表示某块的编码模式,然后转换成符号序列反馈到编码端,用于在编码端进行模式选择。通
过实验仿真对比我们提出的方案和目前其他的编码方式在编码效率和比特率方面的性能。
1 系统结构
55 1.1 系统框图
本文采用的DMVC 系统框图如图1 所示。其中关键帧采用H.263+帧内编码方式进行编
解码。对于需要进行WZ 方式进行编解码的帧,记为WZ 帧,首先进行8×8 大小的DCT
变换,变换系数进行独立量化,然后组成系数子带,然后使用LDPC 进行编码传输其校验位。
在本文中,所有的校验位全部传输到译码端,不需要反馈信道。在译码端,LDPC 译码器使
60 用收到的校验信息和生成的边信息进行译码,重建原始WZ 帧。假定边信息和原始图像之间
的误差符合拉普拉斯分布,在译码端通过之前已重建的帧进行拉普拉斯参数的估计。
模式
选择
Quantize Bit plane
Ordering
LDPC
Decoder Recons.t
Intra encoder Intra decoder
边信息和
标记信息
生成
空间边信息
DCT LDPC IDCT
Encoder
时间边信息
WZ
I
反馈信道
图1:DMVC系统框图
Fig 1. The block diagram of the proposed distributed multi-view video coding system
65
图1 中,将译码端生成的标记信息转化成比特序列反馈到编码端,用以决定WZ 帧中的
块的模式。对于能够高质量重构的块,不进行编码和传输;对于重构质量较差的块,则有必
要为其提供信息。因此在处理WZ 帧之前,首先检查标记信息,对于不需要处理的块,给出
块的标记,然后直接跳过;对于需要处理的块,则进行上述的WZ 编码处理。
70 1.2 DMVC 的GOP 结构
本文采用类似[11]中的GOP 结构,如图2 所示。将WZ 摄像机的序列分为WZ 帧和关键
帧(记为I,采用H.263+帧内编码方式进行编解码)。时间方向上,使用WZ 帧的前后两个
关键帧作为参考;空间方向上,假定至少有三个摄像机监测同一个目标区域,使用左右两个
相邻摄像机作为当前WZ 摄像机的参考源。参考摄像机里的所有帧(记为C)都采用H.263+
75 帧内编码方式进行编解码。
第k-1帧
第k+1帧
I
I
WZ
C
C
C
WZ摄像机参考摄像机
第k帧
C
C
C
参考摄像机
图2. DMVC系统的GOP结构
Fig 2. The GOP structure of DMVC
80 2 本文提出的边信息融合方法及标记信息生成方法
边信息的生成是DVC 系统中最为重要的部分,边信息质量越好,正确译码WZ 帧所需
要的校验信息位就越少,重构的帧质量也越好,从而提高率失真性能。多视点系统中,多个
摄像机从不同的角度和位置共同捕获同一个目标区域,视点间具有很强的空间相关性。在
DMVC 中,不仅采用传统的同一视点内的时间相关性,也充分利用不同视点间的空间相关
85 性。
图3 显示了从WZ 摄像机和参考摄像机得到的边信息类型。 In-1 和 In+1 分别表示WZ
摄像机当前WZ 帧的前一关键帧和后一关键帧,Y1 是二者生成的时间边信息。IL 和 IR 分别
表示左右参考摄像机中与WZ 帧同时刻的参考帧,Y2 是二者生成的时间边信息。接下来,
通过融合算法将Y1 和 Y2 进行融合,得到最终的边信息 Y。在生成边信息的过程中,我们
90 构造标记图像F1 和F2,并形成最终的标记图像 F。
In-1
In+1
Y1 Y&Flag Y2
IL
IR
WZ摄像机参考摄像机
边信息融合及
标记信息的生成
图3. WZ帧的时间边信息和空间边信息
Fig 3. The proposed side information fusion and flag generation for Wyner-Ziv frames.
95 2.1 时间边信息的生成及标记信息的决策方法
本文采用常用的运动补偿时间内插方法(MCTI)生成时间边信息。假定连续三帧图像
中的运动是线性的,并且强度适中或者缓慢,那么WZ 帧可以通过匹配In-1 和 In+1 得到,
如图4 所示。首先,对In-1 内的A 块,在 In+1 内按照特定的匹配准则寻找其对应的匹配块
C 块,得到运动矢量(i, j)中。此时,位于矢量中点处(i/2, j/2)的WZ 帧的B 块就能够由A 和
100 C 共同决定。此处,我们采用B 块的像素值等于A 和C 的像素值的平均值。同理,可以进
行双向的运动估计,以得到最终的预测块B。
图 4. 使用MCTI生成时间边信息
Fig 4. MCTI for intra-view side information generation
105
鉴于全搜索算法具有最好的匹配精确,本文采用该算法进行块的匹配。使用绝对误差和
(SAD)最小作为判断块匹配的准则。SAD 定义如式(1)
此处(i, j)是块A 与C 之间的运动矢量,In-1(x, y) 和In+1(x+i, y+j)分别是当前帧与参考帧
110 中对应位置的像素值。M = N = 8 指选用块的大小。
一旦找到最优的匹配块C 和相应的运动矢量(i, j),我们就可以得到预测块B 的信息。此
时对最优匹配对A 和C 的SAD 值,记为SAD(AC),进行阈值处理。设定门限值Th1,B 块
的时间方向上的标记信息由下式(2)得到:
(2)
115 此处,1 表示SAD(AC)小于门限值Th1,说明该块B 处于背景区域或者运动缓慢的区域,
也即在连续的三帧图像中变化较小;而0 表示SAD(AC)大于门限值,说明该块B 处于运动
剧烈的区域,为了能够在译码端得到较好的质量,需要原始信息的辅助。至此,我们得到了
WZ 帧在时间方向上的标记图像F1。
2.2 空间边信息的生成及标记信息的决策方法
120 选取左右摄像机IL 和 IR 的同一时刻的关键帧作为WZ 帧的参考帧。首先,需要计算全
局运动模型的参数,也即WZ 摄像机中的像素(x, y)如何映射到左、右边摄像机IL 和IR 的对
应位置(x1, y1)和(x2, y2)处。本文中采用类似文献[9]中的变换模型,如下式所示:
x1 = m0x + m1y + m2. (3)
y1 = n0x + n1y + n2. (4)
125 此处,m0, m1, m2, n0, n1, n2 是需要计算的全局运动参数,(x1, y1)是对应于像素点(x, y)的
映射后的像素的坐标。同理可以计算右边摄像机的映射点(x2, y2)。由于全局参数的获取需要
大量的、复杂的计算,不适合在计算能力和功耗受限的编码端进行,因此在译码端进行全局
参数的计算。由于我们研究摄像机不动的情况,因此全局参数只需计算一次,一旦得到参数
值,在后续的操作中可以一直使用。
130 使用IL(x1, y1)和IR(x2, y2)表示当前WZ 帧映射后的左右摄像机的图像帧。采用类似时间
边信息的生成方式,对IL(x1, y1)和 IR(x2, y2)进行块的匹配及运动补偿,对匹配块的SAD 值
进行阈值处理。如果在IL 和 IR 中的最优匹配块的SAD 值小于设定的门限值Th2,则说明
WZ 帧中的该块属于三个摄像机共同监测的区域,在译码端可以利用空间相关性进行有效重
构,此时在标记图像上将该块标记为1;否则,如果最优匹配块的SAD 值大于设定的门限
135 值Th2,则说明该块属于其特有的区域或者空间信息不完整,为了有效重构,译码端需要原
始图像的信息,此时将该块标记为0。
本文通过分析块匹配过程中SAD 值的直方图分布规律得到门限值Th1 和Th2。
2.3 边信息融合方法和模式选择
至此,已经得到时间和空间边信息Y1 和 Y2,以及对应的标记图像F1 和 F2。本节将
140 阐述边信息的融合方法用来得到最终的边信息Y。最终形成的标记序列通过反馈信道传回到
学术论文网Tag:代写论文 论文发表 计算机论文 代发论文 职称论文发表
|