账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
影音世代关键技术-MPEG4
 

【作者: 李昶慶】2002年03月05日 星期二

浏览人次:【4047】

MPEG-4是由MPEG组织发展的标准。这个组织已经成功地提出了MPEG-1和MPEG-2标准。MPEG-4的产生是经由国际间数百位学者和工程师努力的成果。这项标准于1998年十月提出,并且在1999年年初成为世界公认的标准。MPEG-4 2.0版本于1999年年底定案,最后于2000年成为世界标准。不过还有许多地方仍在扩充当中。


MPEG-4的建立,在三个领域中被充分的运用:数字电视、交互式影像(影像合成)及交互式媒体(因特网),MPEG-4提供了标准化技术,让这三个领域的厂商可以迅速地开发出新的产品。


MPEG-4 DMIF和系统介绍

DMIF是媒体传送整合框架(Delivery Multimedia Integration Framework)的缩写,这是一种新的媒体传输协议,架构在现有的传输方式上。DMIF和FTP不同的是,FTP传送的要求是档案,而DMIF传送的要求是数据流的位置。DMIF不仅仅只有框架而已,他还包含了传输协议,而其中的转换接口称之为DAI(DMIF-Application Interface)。DAI会将DMIF数据转换成可以传输的数据。


DMIF包含了三个主要的技术:交互式网络技术,例如因特网;网络广播技术,例如有线电视;磁盘技术,例如光盘读取。所以架构在DMIF之上的应用程序可以不必考虑传输模式。在这个架构之下DMIF定义了一个网络传输接口DNI(DMIF-Network Interface),这个接口主要定义了DMIF间(本地DMIF和远程DMIF)数据交换模式。由(图一)中我们可以了解,DNI只定义了传输接口并未指定实体的传输模式,所以远程的DMIF可能和近端的DMIF位于同一个主机上。



《图一 网络传输接口DNI》
《图一 网络传输接口DNI》

DMIF可以允许一个场景同时经由许多个不同的DMIF传送,同一个DMIF应用程序可以经由不同的传输模式来取得所需要的数据。多重传输技术可以让一个应用程序经由不同的传输方式(例如广播网络和本机磁盘)取得所需的数据。


DMIF 计算模式

当一个应用程序向一个作用中的服务器发出需求时,他必须使用DAI来建立一个服务程序。DMIF便会与对应的位置联系,并且建立一个网络传输管道。


《图二 DMIF 计算模式》
《图二 DMIF 计算模式》

如(图二)所示,起始的应用程序向近端的DMIF发出需求,近端的DMIF便会和远程的DMIF建立起联机,接着远程的DMIF便会侦测所对应的应用程序,并将需求传给这一个应用程序,如此一来两个应用程序间便建立起一个数据传输的信道。近端DMIF会因为不同的需求而连接不同的远程DMIF。


先进同步模型(Advanced Synchronization Model)

这种弹性时间模块可以让MPEG-4正确的将不同的对象组合成所需的场景,例如文字、声音和影像。在不同的数据流中都包含着时间标记,译码器便可以藉由时间标记来达成时间同步的密标。这项技术最立即的应用在于新兴的网络传播媒介。


描述性语法(Syntax Description)

MPEG-4使用描述性语法来描述数据流中的媒体对象及场景数据。


二元式场景描述(BIFS, Binary Format for Scene description)

在MPEG4中定义了不同的媒体对象,所以其必须能够将这些对象合成所需的场景。合成场景所需的信息经由编码之后,随着媒体对象传送到接收端。MPEG所发展出的这一套语法称之为BIFS。


媒体对象组成场景的方式: MPEG-4场景具有阶级式架构,如(图三)所示。这个结构并不是固定不变的,可依照需求增加或移除分支。

《图三 MPEG-4场景具有阶级式架构》
《图三 MPEG-4场景具有阶级式架构》

交互式接口(User interaction)

MPEG-4可以允许播放时接收用户交互消息。互动方式主要可分成两类:服务器端操控或接收器端操控。


对象内容信息(OCI, Object Content Information)

MPEG-4允许媒体对象附加额外的信息,例如材质信息可以随着媒体对象传送而不是包含于其中。


MPEG-4 视讯技术介绍

视觉对象可以是自然或合成的。首先必须定义原始的自然对象,接着是合成对象。


MPEG-4影像技术之应用

MPEG-4影像技术包含了许多现有的技术。新的低带宽传输技术可以使用在带宽受限的无线传输设备上,例如无线影像电话。也许亦可以使用于低带宽的监视系统上。在高带宽的环境之下,可以传输具有高质量的影像,可以满足不同的需求。最后可能在于较低的带宽下达到MPEG-2的影像质量。


最主要的应用是在于交互式网络影像。这部分应用已经被证实是可行的,但应用程序还未能够完全应用MPEG-4的面向对象特质。二元和灰阶形状编码工具可以随心所欲的合成所需要的影像,如此一来,以网络为基础的展示或广告便能够具有丰富的互动影像。接着便可以借用一些衡量工具来了解用户的使用习惯,让用户可以更顺畅的浏览网页。


MPEG-4编码技术已经被使用于掌上型摄影机。因为储存的影片可以很容易地转换到网络应用上,所以使用这种技术的机器越来越普遍,也有使用MPEG-4编码技术来储存静态画面。另外一个应用领域是在电玩的市场上,在多人在线3D游戏中可以加上实际影像。


MPEG-4影像编码技术具有的弹性化吸引越来越多的程序使用这项技术。


自然材质及影像

在自然材质、画面和影像上,MPEG-4视觉标准的核心技术提供更有效率的储存、传输和运用。利用这些工具译码时,所得到的基本组成称之为影像对象(video objects)。例如一个演讲者的影像对象(不包含背景),再加上声音视觉对象(audio-visual object, AVO)便产生了一个场景。而传统中的方形对象成为一个特殊案例。


为了能够让这一种技术发扬光大不受限于某些特殊的应用,所以MPEG4提供了许多算法则可以应用于不同的条件之下:


● 高效率的画面和影像压缩


● 高效率的影像材质压缩


● 高效率隐含的2-D多边形压缩


● 高效率动态几何图形压缩


● 随机存取所有型别之可视化对象


● 画面和影像操作功能之延伸


● 以画面及影像内容为基础之编码方式


● 以材质、画面及影像内容为基础之画面缩放技术


● 空间、时间及质量之缩放技术


● 于易发生错误之环境下的容错技术


可变大小影像对象之编码技术

MPEG-4拥有许多可伸缩的编码机制:空间伸缩、时间伸缩和晤见基础之空间伸缩。空间伸缩支持材质质量改变,对象基础之空间伸缩提供以对象为基础之形状改变,如此便可以实现非常具有弹性之影像伸缩,并且可以减少噪声、增加分辨率及影像准确性等等。


强健的容错能力

MPEG最新发展的技术称之为新预测技术(NEWPRED, new prediciton),提供及时编码应用上更快的错误修正技术。编码器可以依照网络现况来提供合适的编码方式。这项技术亦提供较高的压缩效率,并且已经被使用于较易发生错误之环境下。


● 无线网络上之爆发性错误(Burst Error)


● 因特网上之封包遗失(Packet Loss)


减少因缓冲区不足所造成之延迟

另外一个新技术称之为动态分辨率转换(Dynamic Resolution Conversion, DRC),这项技术可以让传输更为稳定,不致因为传输缓冲数据不足造成延迟。亦可避免大量的影像遗失,在画面急速改变的场景下编码器仍可正常地运作。


材质及静态画面的编码方式

在MPEG-4 2.0版本中为材质及静态画面编码提供了三项新工具:


● 微波贴图:影像可以被分割成非常微小的独立画面,这些画面可以单独被编码或译码,所以可以应用较少的内存来完成编码/译码的工作,而译码器之随机存取的速度也会大量的提升。


● 可伸缩之形状编码技术:将各种形状的影像及材质编码成可伸缩之样式。译码器便可以依照所需,将对象译码成所需的大小(分辨率)。


● 容错工具:新的容错技术可以让影像在行动通讯或因特网传输中具有较高的容错能力。


多视角对象之编码方式

MPEG-4 1.0版本中在影像对象层中增加一个α信道,用于描述三种对象型态。这三种形态是:二元化形状、固定形状和灰阶外形。所以MPEG-4无法有效地支持多视角影像对象。在2.0版本中又定义了多重α信道,用于传输辅助性对象。其中灰阶对象不仅用于透明影像对象,还有其他普遍性的应用:


● 透明物体


● 多视角对象之不同外形


● 物体深度


● 红外线或其他次要材质


所有α信道信息皆可经由形状编码工具进行编码。此种技术的应用范例如下:这项技术的基本概念在于应用最少的画素来进行编码的工作。由于一个多视角的对象在不同的视角下,所看到的区域必定会有重迭的状况产生,所以对于这个对象进行编码时,便针对完整的表面进行一次最高分辨率的编码,而不同视角所看到的形状便可以经由原始对象投影形成。编码器可以利用一至两个辅助信道来储存不同视角所看到的对象外形。


被保留下来当作编码对象的特定视角称之为AOI(area of interest)。所有的AOI都是MPEG-4中的一个影像对象,编码时亦储存了许多相关的信息。为了避免AOI组成新对象时产生接缝问题,在两个AOI对象边缘必须事先做好平滑化处理。


不同视角所做的影像重建会遇到表面材质投影补偿问题,此时便可以将材质信息储存于辅助信道中经由MPEG-4影像流传输。不同的AOI经由投影过之后再组成所需的对象。这个程序可以经由双平行摄影系统或是多重摄影机同一焦点系统来完成。


自然影像之重现

MPEG-4影像编码算法则可以让视觉对象以任意形状重现,它支持所谓的内容导向机制,也支持MPEG-1和MPEG-2所提供的机制,包含了标准的方形影像压缩机制、传输速率、可变之空间、时间及质量等等。


在非常低的传输速率之下(VLBV:very low bit0rate video),MPEG-4亦提供解决方案:


对于及时多媒体通讯应用上,以传统方形区块影像编码方式编码使用高编码效率、高容错能力、低等待时间、低复杂度之方式。


具有随机存取、快速前进及快速后退机能。


MPEG-4影像编码基本原理


《图四 基本的编码结构导入外形编码和动态补偿》
《图四 基本的编码结构导入外形编码和动态补偿》

基本的编码结构导入外形编码和动态补偿(图四)。MPEG-4所使用的内容导向编码方式具有一项重要的优点,在某些场景之下使用正确的动态预测工具,可以大幅度的提高压缩效率。MPEG-4使用了许多动态预测技术来增进压缩效率及提高对象重现之弹性:


● 标准之8x8或16x16像素块状对象动态分析及补偿。


● 以静态画面为基础之全局动态补偿。可能是由一张静态的画面配上动态的背景。在一连串的画面中只定义了八个变量,用来描述镜头的移动,而藉此重现整个画面。


(图五)展现了MPEG-4影像使用静态全景画面的概念。这里假设网球选手可以从背景独立出来,而背景可以事先取出进行编码。所以背景只需在一开始时传送一次,当镜头转换时,只要改变某些参数便可以显现正确的画面。接着接收器便可以将动态之前景画面和背景画面组合起来成为所需的画面。


《图五 MPEG-4影像使用静态全景画面的概念》
《图五 MPEG-4影像使用静态全景画面的概念》

可变大小影样对象之编码技术

MPEG-4具有可变空间、时间影像对象之编码技术。此项技术可以支持传统块状或任意外形之影像对象。这项技术只有应用于译码器这一端,可以经由以下程序来达到所需的目标:


● 降低译码器之复杂度降低来降低画面质量


● 降低画面分辨率


● 降低时间分辨率


● 在同样的空间、时间分辨率下降低质量


这种机制主要应用于影像在不同的网络传输时,并不是所有的接收器都能够显示完整的影像分辨率或质量。当接收器的处理能力或屏幕分辨率受到限制时就会产生这种状况。


在静态画面的传输上,MPEG4提供了11种程度的空间变化,以及以位为基础之质量变化。


MPEG-4 声音技术介绍

MPEG-4对于声音对象的编码技术同时支持自然音效(人声或音乐)及合成音效。而合成音效可经由文字转换成语音,或者经由声音编码展现出残响及空间性。


自然音效

MPEG-4对于自然音效编码传输率范围可由2 kbit/s 到64 kbit/s。当变动传输率编码技术使用之后,平均传输率可达到1.2kbit/s。在较高传输率的环境之下,MPEG-4提供了AAC(Advanced Audio Coding)编码方式。MPEG-4因此为译码器定义了一套数据流语法,在足够的带宽之下,必须能够达到最完美的声音质量同时并提供额外的控制选项。一般的数据架构中整合了语音和一般音效两种编码技术:


语音编码技术应用于2~24kbit/s的范围

其中使用了两种编码技术,在2~4kbit/s范围使用了HVXC(Harmonic Vector excitation Coding),在4~24kbit/s使用CELP(Code Excited Linear Predictive)。使用上有以下几种模式可以选择:2~4kbit/s使用HVXC,低带宽的状态下可使用6、8.3和12kbit/s的CELP,高带宽的状态下可使用18kbit/s的CELP。实际在传输上可以应用可变传输率方式。


一般的声音编码支持的带宽必须高于6kbit/s

所使用的技术有TwinVQ和AAC两种。一般来说,最低的取样频率是8kHz。


实际的应用上,MPEG4可以合并以上技术加以应用,例如在低频上使用CELP技术,而在高频上使用AAC技术。另外MPEG4译码器也支持其他MPEG标准的编码技术,例如MPEG-2 AAC技术。


2.0版本增强的地方

MPEG-4 2.0版本增强的地方包括:


● 增加容错能力


● 低延迟的声音编码技术


● 更细微的传输率动态调整间格


● 参数化声音编码技术


● CELP静音压缩


● HVXC错误回复


● 不同环境的空间性


● 回传信道


● 声音数据传输结构


合成音效

MPEG-4的译码器可经由不同的输入合成出所需的音效。文字数据可经由文字语音(TTS, Text-To-Speech)译码器转换,再和一般的音效进行合成。合成音乐能够在非常低的传输速率下仍然保持数据的正确性。使用的技术如下:


TTS:

使用的带宽介于200bit/s到1.2kbit/s间,可经由文字及语调参数产生清晰的合成语音。并且可以经由参数的设定来和脸部动画或文字显示同步。MPEG-4为TTS译码器提供一个TTS标准化接口(TTSI, Text To Speech Interface),但并不包括TTS语音合成标准。


乐谱式驱动合成:

结构化声音工具将输入的数据转成声音输出。这种方式经由一种称之为SAOL(Structured Audio Orchestra Language)的特殊语法来进行合成。这种语法在数据的控制上就好比利用各种不同的乐器组成一个乐团。实际上,每个乐器就好比是网络上的一个微小讯号,用来仿真一个特殊的声音。这些声音可以预先储存于软件或硬件上,之后再加以组合运用。译码器接收到「乐谱」之后,就可以在不同的时间点加载不同的「乐器」来产生所需的音效。这种乐谱式描述语法称之为SASL(Structured Audio Score Language)。经由仔细的声音控制,可以合成出简单的音效,例如脚步声或关门声,也可以合成复杂的自然声音,例如下雨声或现代音乐。


结论

MPEG-4在通讯运用上将有广大的发展前景。未来透过MPEG-4技术的推广,许多应用将可获得实现。例如:无线影像电话,因特网之影音播放,高质量的视频会议...等。虽然目前应用上还不是非常的普遍,但我们可以看到有越来越多的影音产品应用到这一项技术,例如:利用光盘储存具有DVD画质的影片。所以在这因特网和无线通信发达的年代,MPEG-4是一项令人期待的新技术。


(本文作者任职于扬智科技公司)


相关文章
挥别续航里程焦虑 打造电动车最隹化充电策略
聚焦数位x绿色双轴转型
资料导向永续经营的3大关键要素
人工智慧引动CNC数控技术新趋势
高频宽电源模组消除高压线路纹波抑制干扰
comments powered by Disqus
相关讨论
  相关新闻
» 达梭系统携手CDR-Life 加速癌症治疗科学创新
» 宜鼎独创MIPI over Type-C解决方案突破技术局限,改写嵌入式相机模组市场样貌
» 鼎新电脑串连生态系夥伴 数智驱动智慧低碳未来制造
» 鼎新电脑携手和泰丰田解缺工 以数位劳动力开启储运新时代
» Fortinet SASE台湾网路连接点今年落成 全台巡??落实云地零信任资安


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84T6SQL72STACUK5
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw