账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
深度资讯编码架构之探讨
 

【作者: 許庭瑋】2019年07月11日 星期四

浏览人次:【7712】

随着多媒体技术及相关设备的发展,使用者体验受到越来越多的重视,例如影片从过往黑白无声的画面,至今日进入超高画质的阶段。高解析的影片如HD、Full HD 解析度的影片已取代类比电视 480P 解析度成主流,目前随着硬体设备的进步已提升至4K即3840*2160 pixels。


除了影像画面本身的解析度提升之外,呈现方式亦从使用者单方面的接收内容,发展至今如自由视角(Free-View Video, FVV)等使用者可参与显示内容之形式,或跳脱平面之三维视讯( 3-D Video)如3-D电影等新型态的应用来获取近似于身历其境的体验。


自由视角视讯与三维视讯的实现,为拍摄时利用多组摄影机组成摄影机阵列对场景进行不同角度的拍摄,对于摄影机未拍摄的视角,即可利用相邻的摄影机视角进行合成,应用时传送多个不同视角的资讯至使用者端,再对使用者所要求的视角进行合成与显示。


然而此类应用由于需要传送多个不同视角的资料,加上画面解析度及品质的提升等考量,需要传送的资料量更为庞大,因此如何提升压缩效率以减少传送成本是个重要的议题。


对此议题,国际电信联盟(International Telecommunication Union, ITU)的视讯编码专家群(Video Coding Experts Group,VCEG)和国际标准组织(International Organization for Standardization/International Electrotechnical Commission, ISO/IEC)共同组成的联合视讯小组(Joint Video Term, JVT),开发一个可供使用者选择观看视角的多视角视讯编解码技术(Multi-view Video Coding, MVC),此技术建构于MPEG-4 AVC/H.264标准上,其中便包含了立体视讯显示与自由视角两大应用。


深度资讯编码知识背景

影像区域的分割

电脑视觉(Computer Vision)随着科技的进步,被应用在非常多不同的应用,如近年来很流行的体感游戏、社群网站上传影像后,可以直接进行人脸辨识、或是手机拍照后,可以将前后背景或物件分离,影像区域分割(image segmentation)技术的发展,占了非常重要的一环。


将一张输入的影像,依照色彩相似度或纹理特性等许多不同的特征值,分割为许多不同的区域或物件。然而数位影像是由许多像素(Pixel)所组成的矩形区域,而每个单一像素却只能表达自身的区域资讯,无法提供与相邻区域的关联性。


因此,区域划分须透过影像处理,将画面内的像素依照特性进行分群(clustering),得到的结果相会是特性相近的区域,即可将资讯应用于影像检所、动态估测等不同的领域。


许多研究电脑视觉影像的学者分别提出许多不同的影像区域划分方法,将这些被提出的演算法搜集后,区分为主要三大类别:Region-Based Segmentation Methods、Data clustering以及Edge-Based Segmentation Method。


(1)区域为基础的分割方式(Region-Based Segmentation Methods):


此分割方法主要是假设同一区域内的相邻像素应具有相似的数值。经由比对此像素若是与相邻之像素具有相似性,则可将此像素归纳至同一分群之中。因此,相似性判定标准将会影响到区域划分的结果。文献中也提到相关延伸之区域划分方法如Seeded Region Growing、Unseeded Region Growing、Region Splitting and Merging。图1为Region Splitting and Merging采用四分树(Quad-tree)的架构进行区域划分。



图1 : 四分树(Quad-tree)的架构图
图1 : 四分树(Quad-tree)的架构图

(2)资料分群(Data clustering):


资料分群是被广泛应用于影像分割和统计的方法之一。其主要的概念是在于找出影像资料中较相似的几个群聚(clusters),并找出其代表点,称为中心点(centroids)以达分割的效果。主要可分为阶层式(Hierarchical)和分割式(Partitional)聚类。类似的演算法,如Squared Error、K-means或Mean Shift。


(3)边界为基础的分割方式(Edge-Based Segmentation Method):


此方法通常使用边缘检测后进行分类,如梯度算子(Gradient operators)和希尔伯特变换(Hilbert transform)。而另一种方式不同于使用边缘侦测工具,则是利用边缘的变化的特性,如分水岭分割算法(Watershed Segmentation Algorithm)。该演算法为找出影像中的分岭线(Watershed line)进而影像进行切割。如图2、3。



图2 : 影像分水岭示意图
图2 : 影像分水岭示意图

图3 : 分水岭式区域划分方法
图3 : 分水岭式区域划分方法

立体视觉视讯、原理与架构

立体影像的原理为双眼接收到同一场景之不同角度的影像时,会于脑中将之合成为立体影像。人类的左眼与右眼间的距离约为5至8公分,因此对于同一场景而言,两眼个可捕捉到另一眼所无法捕捉的画面,再加上角度不同所产生的误差所产生的两眼画面不同,这些误差即称为视差(disparity)。


人类的大脑会将视差进行处理,进而使人类感受到视觉上的远近关系,因此欲产生立体视讯,则必须至少有两个视角的资料,再由相关的硬体设计,如偏振切割、时间切割等技术,使不同视角的画面分别显示于两眼,借此达到立体画面的效果,如图4所示。



图4 : 立体成像架构?
图4 : 立体成像架构?

自由视角视讯原理与架构

@內文:自由视角视讯(Free-Viewpoint Television Vidoe)利用多台经过校准的摄影机阵列进行拍摄,然后再进行编码与传送,其架构如图5。


透过多视角视讯的讯息,可以在接收端合成任一角度的虚拟视讯。如图6中分别表示了三种因应不同的系统限制(如硬体或频宽等)之多视角视讯编码架构,可对应使用者的使用环境选择于传送端或接收端进行影像合成。



图5 : 自由视角编码架构
图5 : 自由视角编码架构

图6 :  FTV画面合成
图6 : FTV画面合成

现有相关深度资讯编码架构

区块为基础的编码方式-3-D HEVC Extension深度资讯编码

深度影像的编码在3-D HEVC参考软体中,以附加工具(3-D HEVC Extension)的形式提供,其基本架构承袭HEVC编码架构而来,因此诸如画面内预测(intra-prediction)、运动估测与补偿(motion-compensated prediction)、视差补偿估测(disparity-compensated prediction)、变换编码(transform coding)等工具,均如同应用于纹理编码一般可套用于深度资讯编码。


然而基于纹理资讯与深度资讯的差异,3-D HEVC Extension针对某些编码工具进行了新增或修改,使其符合深度编码的特性,如色彩取样模式因深度资讯为数值范围0-255的灰阶影像,因此仅使用4:0:0色彩取样模式。


为了因应不同角度的摄影机所撷取之画面可能有景深极大值与极小值不同,而造成同一深度平面却有不同深度值的问题,而新增了Z-near z-far compensation(ZZC)工具以确保进行画面间预测(inter-frame prediction)时,所有参考画面皆可以处于相同的参考点进行比较。


3-D HEVC Extension新增了四种不同的区块模型模式(modeling mode)来对当前编码区块进行模拟,此四种模型的概念皆为将当前编码区块划分为两块常数区块,因此仅需对划分方式以及切割后的两区块内深度常数值进行编码,即可达到节省位元率的目的。


区块的划分工具可分为楔形波为基础(wedgelet-based)以及轮廓为基础(contour-based)的区域划分方式,楔形波为基础的划分方式适用于当前编码区块,可被一条直线划分为两个常数区块;轮廓为基础的区域划分,则是用于不规则外型的区块,如图7所示。



图7 : 3D-HEVC新增的区域划分方式
图7 : 3D-HEVC新增的区域划分方式

3D-HEVC Extension的Mode4则为利用当前编码画面的对应纹理画面进行画面间预测,如图 8 所示。利用纹理图进行二值化运算之后得到的结果,应用于当前深度编码区块,并以解码端的纹理资讯进行轮廓之重建,即可节省编码轮廓所需的位元。



图8 : 3D-HEVC Extension画面间预测模式
图8 : 3D-HEVC Extension画面间预测模式

区域为基础的编码方式

一张深度图可以看成以多个轮廓及轮廓内深度值的区域所构成的影像。基于此特点,舍弃传统以区块为基础(Block-based)的编码架构,并提出以区域为基础(Region-based)之编码架构。


首先将愈编码的深度影像进行区域切割为由相似深度值所构成的区域,并将区域边界及内部的数值进行编码。解码时先进行边界的重建后填入对应的深度值,即可重建完整的影像。由于完整的保存了深度影像的边界资讯,故在合成视角时可得到较好的影像品质。


实验显示若两相邻像素的深度值不相等时,即存在着断裂边界(Crack Edge, CE)。运用画面内CE资讯即可将深度影像区分成三个部分:边界资讯CE、多个CE围成之区域及区域内之常数数值,如图 9所示。 D为像素点座标,红色数字则为该项数的深度值,V为垂直边界而H为水平边界,并以红色及绿色表示该边界是否启用。



图9 : 深度影像使用CE切割的示意图
图9 : 深度影像使用CE切割的示意图

影像中的CE可使用二维的布林阵列表示,布林值0为不启用、1则代表启用边界。因此CE的资料可看成是以一串的二元数值所构成的字串,其特性相当符合算术编码(Arithmetic Coding)的编码之特性(少量的符号以不相等之出现机率)。


同时由于物件边界具有高度相似结构的特性,因此文献提出以收集CE资讯后预测当前编码的CE,并利用内容预测式算术编码(Context-based Arithmetic Coding)进一步提升编码效率减少熵(Entropy)。如图10所示,绿色线段为已经编码CE,红色虚线为当前编码CE,利用已知的CE预测编码的方式使得资料分布更加集中,进而提升编码效率。



图10 : CE预测样板
图10 : CE预测样板

以彩度边界辅助深度资讯编码的方式

上一小节介绍了以区域为基础的编码方式,其编码方式为直接进行深度影像的深度划分,然而这样的编码方式仍需要传送大量的深度资讯,所以文理影像与深度影像的边界资讯有着极高的关联性,如图11所示。加上纹理影像在编码端及解码端都可以得到。


基于此论点,提出以彩度资讯辅助深度影像编码的方式,只需传送使用纹理影像所划分出来的区域内深度值,即可在解码端重建完整的深度影像。



图11 : 纹理影像与深度影像边界资讯比较图
图11 : 纹理影像与深度影像边界资讯比较图

以纹理资讯辅助深度资讯编码的架构图,如图12所示。首先将重建后的纹理影像进行区域分割,并将分割的结果提供给深度影像运算所对应区域的深度值,并与区域划分资讯整合为单一码流传送至解码端。使用重建后的纹理影像进行区域划分之原因,为确保解码端和编码端视使用相同的画面来分割以免造成漂移误差(Drift Error),确保系统的闭回路特性(Closed-loop Property)。



图12 : 以纹理资讯辅助深度资讯编码的架构图
图12 : 以纹理资讯辅助深度资讯编码的架构图

若只单纯使用纹理影像进行区域分割,可能会发生虽然深度影像有边界但纹理影像对应区域之颜色较相近,导致纹理影像在进行区域分割时被归属在同一个区域,造成影像重建时有很大的差异,如图13。



图13 : 因纹理资讯过於相似导致遗失深度边界
图13 : 因纹理资讯过於相似导致遗失深度边界

因此提出补足此缺点之编码架构(图14)下,以导入深度资讯之纹理区域划分方法于深度资讯编码系统,架构图如15。先由深度图取得深度边界CE,并将支给予纹理图协助其分割,若有启用的CE即便纹理影像之特性相近,也不会进行合并,如此便可以良好的保持深度边界资讯,如图16所示。



图14 : 混合式区域划分编码架构
图14 : 混合式区域划分编码架构

图15 : 以深度边界的纹理区域划分方法於深度资讯编码系统
图15 : 以深度边界的纹理区域划分方法於深度资讯编码系统

图16 : 导入深度CE後可保有良好的深度边界
图16 : 导入深度CE後可保有良好的深度边界

?


深度资讯编码的发展

自由视角视讯与三维视讯之原始影片采用格式为多视角彩度加深度(multiview view video plus depth, MVD),使用以深度资讯(depth information)辅助纹理资讯(texture information)进行视角合成的技术。


传送端仅送出特定视角的纹理与相对应的深度资讯,以节省传送所有视角所需的成本,未传送的部分则以接收之资讯进行合成,其中深度资讯准确性会明显影响合成视角的品质。


深度资讯记录了场景物件与摄影机的距离,相较于呈现色彩差异的纹理资讯,深度资讯所记录的为场景中各物件之空间位置关系,可用于虚拟视角合成时选取参考画面之依据,应用于自由视角视讯与三维视讯,可使得最后的虚拟视角合成成果更加精确。


尽管MVC技术以舍弃部分视角资讯的方式减少传送成本,然而在减少了纹理资讯的同时,亦增加了深度资讯的负担,因此深度资讯的编码与压缩即成为重要议题,自2008年MVC技术制定完成后备受重视,至今仍有需多相关研究进行。


于2013年制定完成之高效率视讯编码(High-EfficiencyVideo Coding, HEVC),亦于其参考软体提供针对深度资讯特性修改的编码扩充工具3D-HEVC Extension,足见传统编码架构应用于深度资讯有其不足之处。


影像编码技术可以运用在数位电视、行动视讯、影音串流等各项新兴多媒体服务中,而且都具有极高的应用价值。现阶段数位科技蓬勃发展使得编码技术日趋重要,但如何在更有效率的形况下达到良好的编码品质,是目前最重要的课题。


(本文作者许庭玮任职于凌群电脑软体工程师)


资料来源

[1] HEVC https://en.wikipedia.org/wiki/High_Efficiency_Video_Coding


[2] M. Tanimoto,“免费观点电视 - FTV”,2004年12月5日,2004年第5届2004年的图片编码研讨会。


[3] 3D- HEVC?


https://blog.csdn.net/tianzhaixing2013/article/details/21248073


[4] ITU-T和ISO / IEC JTC1,“多视图视频编码联合草案8.0,”JVT-AB204,2008年7月。


[5] ICIP,2007年10月ICIP中的“多视图视频加深度表示和编码”,“多视图视频加深度表示和编码”。


[6] ITU-T和ISO / IEC JTC1,“多视图视频编码联合草案8.0,”JVT-AB204,2008年7月。


[7] K. Muller,“3D视频编码与深度建模模式和观看综合优化,”信号和信息处理协会年度峰会和会议,P.P.


[8] J.Hanca EA A1,“基于分割的深度映射使用纹理信息的深度映射”,数字信号处理,PP。2013年7月1-6。


[9] M.Maceira等,“深度映射编码的颜色和深度分区融合,”数字信号处理,PP。2013年7月1-7。


相关文章
挥别传统检测 AI电脑视觉为工业产线加值
影像感测无所不在 全域快门赋能电脑视觉应用
STM32 影像处理函式库介绍
运用FP-AI-VISION1的影像分类器
利用以模型为基础的设计流程开发驾驶者监控系统AUTOSAR自适应软体
comments powered by Disqus
相关讨论
  相关新闻
» 鼎新电脑携手和泰丰田解缺工 以数位劳动力开启储运新时代
» Fortinet SASE台湾网路连接点今年落成 全台巡??落实云地零信任资安
» Ansys模拟分析解决方案 获现代汽车认证为首选供应商
» SOLIDWORKS公开演示未来AI 率先导入工业设计软体应用
» BMW与达梭系统合作 打造3DEXPERIENCE未来工程平台


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK83T3TJ6DUSTACUKB
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw