神奇的魔术－影音压缩技术

│新东西市集│东西讲座│影音频道│出版中心│智动化专区│

元件次系统自动控制

最新动态

05/10东西讲座-6G测试：挑战与展??，名额有限，请尽速报名!

产业快讯

6/20-6/22台湾国际医疗暨健康照护展

COMPUTEX2024将於6/4-6/7热烈展开

6/26-29台北国际食机&生技展叁观登记

2024 TaipeiPLAS热烈徵展中

CTIMES / 文章 /

神奇的魔术－影音压缩技术

【作者：誠君】2004年01月15日星期四

浏览人次：【6873】

目前，MPEG-2的传输速率约2 Mbits/s，如果所要传的数字影像（digital picture）愈是复杂，MPEG-2的传输速度就会愈慢。乍看之下，这个结果是出奇的慢；这意味着，160 Mbits/s的动态视讯信号（motion video）只有1.5%被使用；具DVD画质的影像速率是6 Mbits/s，也只能使用到其中的4%而已。这是为什么呢？这是一个魔术，一个以「有限」代表「无限」，但又不被拆穿的「把戏」。图一可以简单解释此压缩处理的步骤。

《图一》

简言之，图一就是表示数字压缩技术。利用数字信号来储存和传送数字信息比利用纯粹的（raw）模拟信号需要更多的带宽，那为什么还要利用数字信号呢？因为以数字信号来代表信息是比较容易的，而且质量可以维持比较久，可支持长距离通讯，能降低成本，信息内容可以用标准格式传收。其中成本价格是影音处理技术的成败关键。数字压缩技术适用于各种多媒体形式，例如：图片、影像、动画、照片、语音、文字...等。

在(图一)中，「去除累赘信息」就是将原始信息去芜存菁，它是一个前置动作（preprocessing），通常是在做取样的动作；「熵」是统计学或数学的专有名词，简单讲，就是「不确定」；「去熵」就是利用算法建构数学模型，去除输入的取样信号的不确定性；无损编码也是一种算法（这里所说的编码其实就是「压缩」），和它相反的称作「有损（lossy）编码」，底下解释一下有损和无损编码之间不同的地方：

有损编码是将影像做选择性编码，将「没有用的（useless）」影像抛弃掉，而且是永远抛弃，无法复原。基本上，全部的过程都样魔术一样，欺骗人的眼睛和大脑，让人无法发现被抛弃掉的细节部份。如果利用慢速的传输率传送，此时人眼将可识破此「骗局」。不过，决定哪些部份才是可以抛弃的筛选原则必须符合人类视觉或听觉的本能（human instincts），目前科学家已经研发出多种统计模型（pattern）可资利用。目前有损编码技术广泛地应用在多媒体通讯领域，尤其是在因特网上。目前利用有损编码的技术有：DivX、MP3、WMA、WMV、DVD/SVCD/MPEG-2（DVD也是利用有损编码，但是因为它的传输速度很快，所以人眼无法发觉有异）、VCD/MPEG-1、OGG、PEG、GIF、JPEG、Musepack、XviD....等。经过有损编码，档案大小是缩小了，但是信息内容（或质量）也遗失（或降低）了。

无损编码类似ZIP或RAR压缩技术，它是利用数论（number theory）的原理来执行编码，不会抛弃任何细节，解压缩之后的信息内容也不会遗失。简单说，其编码方法就是利用算法将重复一次以上的数据编码。目前利用无损编码的技术有：Huffyuv、BMP、PCM...等。

在目前的多媒体市场中，有三个响叮当的压缩技术标准：MPEG、H.26x、JPEG。下面分别介绍它们的技术特性：

在MPEG系列标准中，包含：

●MPEG-1，1991年：是针对352 x 240分辨率，30fps（frame per sec）NTSC或352 x 288，25 fps PAL的电视而设计，最佳传输率为1.5 Mb/sec。目前广泛应用于VCD。

●MPEG-2，1994年：是针对数字电视而设计，720 x 480，30 fps NTSC，最佳传输率为1.5 Mb/sec；可外延支持高画质电视（HDTV），1920 x 1080，30 fps，80Mb/sec。目前广泛应用于VCD（720 x 480，30 fps，10Mb/sec）。新增支持交织视讯（interlaced video）的功能，支持高画质，是DSP多媒体嵌入式操作系统的最佳解决方案。对于不同的I/O标准、图像延迟、内存优化、语音译码器而言，MPEG2是最佳的解决方案。

●MPEG-4，1999年：是针对因特网低速传输（小于1.5MBit/sec）而设计的。目前Windows Media Video、DivX v5...等都支持MPEG-4。MPEG-4的基础是面向对象技术，视每个对象为离散和独立的，它们被追踪和压缩在一起成为一个MPEG-4档案。MPEG4包含有AAC和CELP两个语音压缩标准。主要特征为：将复杂的多媒体内容区区分成独立的视讯和音频对象，每一个对象来自合成或自然的环境或类型，针对每个不同对象类型，采取高效率的编码方式。

JPEG目前有两个新标准：

●JPEG 2000是采用Wavelet压缩技术的静态图片（still image）格式标准，可应用于便携设备、印刷前检视（prepress）、医疗影像、高空摄影...等。主要特征为：压缩比高、画质好、采用前进式译码（progressive decoding），可以使用有损或无损编码。

●MJPEG（motion JPEG）是采用「离散正弦转换（Discrete Cosine Transform；DCT）」压缩技术的静态图片（still image）格式标准，压缩比可高达100:1，但解压缩后并不会失真。因为是采用有损编码，其数据遗失量和压缩比成正比。MJPEG只是一连串JPEG图片形成的串流档，不像MPEG和H.26x具有移动态预测（motion estimation）和自动修补失去封包（frame interpolation）的功能。

H.26x系列包含两个主要的标准：

●H.261是ITU针对ISDN（视频会议）双向通讯而制定的标准，支持的传输速率是64Kbit/s的倍数。以DCT压缩技术为基础，支持CIF和QCIF的分辨率。

●H.263是以H.261为基础，但改善了因使用调制解调器（modem）所造成的视讯质量低落的问题。支持低传输率的影像通讯，提供CIF、QCIF、SQCIF、4CIF、16CIF的分辨率，能支持低价位的DSP多媒体嵌入式操作系统。主要特征为：产品设计的延展性和弹性大，允许整合其它额外的功能，例如：音频、调制解调器..等。

上述这些标准分别适用于不同的产品，如表一所示。

《表一》

虽然目前在因特网上，MPEG-4或H.263算是主流的影音压缩技术，但是未来可能会有一个新标准将取代它们，那就是H.264。H.264是国际电信联盟（ITU）与MPEG所共同制定的压缩标准。H.264具有以下三大特点：更高的编码效率、更强的译码差错恢复能力、以及提高了对行动通讯和IP网络的适应性，可提供从移动电话到高画质电视 (HDTV) 的广泛应用。

自从2003年5月ITU正式批准H.264标准之后，许多广播公司、服务供货商（ISP）和消费性电子产品公司都对它很有兴趣。与MPEG-4不同的是，H.264包含一个内建的因特网通讯协议适配层（internet protocol adaptive layer），所以H.264可以被映像到任何固定IP、无线IP、储存装置或广播网络中，而这正是为什么电信公司和消费性电子产品公司都准备支持H.264的原因。

但是，如何确定一种可行的授权商业模式？是H.264目前面临的最大发展障碍。为了解决这个难题，负责管理MPEG-2和MPEG-4 Visual授权的美国MPEG LA和LLC在2003年11月公布了H.264/MPEG-4 AVC授权规定。如果此游戏规则无法得到大多数广播和电信公司认同的话，微软的Windows Media Video/Audio可能就会渔翁得利。

此外，H.264编码器的复杂度约是MPEG-4的10倍以上，而译码器复杂度则为MPEG-4的3倍以上。如此高复杂度，将使得H.264难以满足嵌入式操作系统之需求。因此，如何在不牺牲H.264编译码功能的前提下，降低它的运算复杂度，使它真正能够商品化，仍然考验着业者。不过，目前TI、LSI Logic、Vsoft等公司已经宣称克服了这个技术障碍。(作者为电子产业资深研发工程师，现为诚君工作室负责人: su2b08@saturn.seed.net.tw)

‧	针对可调式视讯之影像编码器
‧	影音光碟之视讯压缩规格比较
‧	行动影音应用关键－串流技术
‧	网路多媒体传输技术面面观
‧	H.264技术特色与广播视讯应用方案

comments powered by Disqus