账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
MP3音效质量设计考虑
 

【作者: 邵芳雯】2009年05月22日 星期五

浏览人次:【5877】

你平时听不听MP3的音乐呢?恐怕很少人能自外于这股潮流吧。这和落不落伍并无关系,而是因为它太方便了,只要有1GB的Flash内存,就能储存上百首的MP3歌曲!今日的随身碟容量已上看32GB、64GB,所以一台小小的MP3随身碟,俨然就能成为个人带着走且取之不竭的音乐库。在此优势下,再加上网络上的大量传播与分享,试问MP3如何能不成为大众的宠儿呢?


MP3和AAC这类格式能将原始音乐档案缩小十分之一,甚至是二十分之一,必然是对源文件动了一些手脚,也就是采取了破坏性的压缩作法。透过数字编码技巧,这类格式将对人类听觉「较不重要」的音频数据给舍弃了,让大多数用户在收听时不会察觉重放的音质与最初的未压缩音质之间有明显的落差。压缩格式的目标确是如此,但事实上,当聆听MP3时,还是很容易可以感觉得到:就是少了些什么!


当然,除了音频来源本身外,最后的音效质量与播放装置的效能也是密不可分的。以家庭剧院来说,必须配置高输出功率的放大器和多声道的喇叭,才能做到逼真的原音重现。这种音质确实很动听,但也意味着高昂的设备成本投资。然而,多数人看电视只使用电视本身的喇叭;在家听MP3音乐使用PC的喇叭,出门则戴耳机听MP3随身碟、手机和可携式多媒体播放器(PMP)的音乐,或利用这些手持设备的喇叭来播放。由于这些设备的小型喇叭或耳机的功效有限,加上MP3的压缩格式,在先天不足、后天又失调的条件下,消费者听到的音质自然不会好到哪里去。


以今日的液晶电视来说,薄型化的技术能力愈来愈强,例如Sony近期推出的Bravia ZX1液晶电视,其厚度连1公分都不到,只有9.9mm。这种厚度与DVD的盒子相当,挂在墙上几乎感受不到它的厚度。不过,对于喇叭的设计来说则是更为严苛,因为愈薄的设计让喇叭的音腔愈为受限,影响最大的即是重低音频(Bass)的响应。



《图一 Sony日前推出的Bravia ZX1液晶电视,其厚度连1公分都不到,只有9.9mm。》
《图一 Sony日前推出的Bravia ZX1液晶电视,其厚度连1公分都不到,只有9.9mm。》

这是目前液晶电视或手机这类小型喇叭共同的宿命,也就是在180Hz频率范围以下的低音响应非常有限,有些甚至无法产生低音响应,造成只能提供一个单薄的声音。对于电视观众来说,这种音响无法确实呈现低音弦的音感或影片中的爆炸冲击,也会模糊了乐器和人声的界线,让影片演员的对话显得含糊不清;对于爱乐者来说,也会因为无法呈现重低音与逼真的临场感。更严重的情形则是失真的声音产生不悦耳的隆隆声响,让人听了很不舒服。


数字化为音频失真元凶

这种音质失真的现象,数字化可说是主要的元凶。自从音乐光盘(Audio CD)在近三十年前问世,它的便利性即一步步取代模拟式的黑胶唱片及卡带,而成为主流的音乐媒介。音乐光盘以44.1kHz的频率取样,将模拟音乐转为数字音乐,并将人耳无法分辨的高、低音频滤掉,以降低储存容量;然而,这些高、低音的音场虽然无法辨识,但仍能予人厚实的感觉。这也是为何模拟的黑胶唱片能提供比CD更逼真的临场感。


因此,现在所谓的无压缩音乐源文件(通常为WAV或AIFF格式),其实经过数字化的取样转换后,本身已存在某种程度的失真了。用这样的格式转换而来的一首数字音乐原始档,动辄需要30到40MB的容量,对储存或下载的负担都太大了,为了让音乐档「瘦身」,于是发展出压缩的格式,此举虽然降低了档案容量,但也进一步牺牲到音频的质量。


压缩格式又可以分为两种:即无损压缩(lossless compression)和有损压缩(lossy compression)。压缩后的音质除了取决于格式本身的算法外,取样频率和比特率愈高音质愈好,但档案容量也会愈大。目前网络上常见的MP3和AAC格式都是有损压缩,其中AAC为iPod大力支持的音乐压缩格式,它能将压缩比做到18:1,甚至到20:1,大幅超越了MP3(约10:1),加上支持多声道和使用低复杂性的描述方式,优势相当明显。不过,由于MP3已取得广泛软、硬件的支持,短期内AAC仍难撼动它的主流地位。


压缩音频的救星

在压缩格式音乐或音频愈来愈普及的趋势下,难道消费者只能消极地对音质妥协吗?事实上并非如此。其实由前端数字化所带来的失真,还是可以靠后端先进的音频强化(Audio Enhancement)技术来还原逼真的音频原貌。这种音频强化技术能够兼顾到包括模拟数字转换器、放大器、喇叭音腔以及喇叭驱动器等带来的效果,回复因子位化和压缩而丧失的音响质量,并创造出具临场感的音效环境。


ARC在2008年2月并购Sonic Focus后,即致力于将Sonic Focus的音频强化技术与其多媒体硬件子系统进行整合,目的就是要为电子产品提供低成本和高质量的音频解决方案。以下将介绍几项重要的音频强化技术:


Virtual Bass

如前所述,今日的小型喇叭或耳芽式(earbud)耳机,往往无法如实的表现出重低音的效果,让人在听音乐或看电影时总是觉得声音太扁平而不生动。这时,一般人或许会采用均衡器(EQ)来加重低音功能,不过,这种作法通常是加入人工的重低音数据,也就是以方波或三角波数字讯号来仿真真实的重低音。如此一来,很容易大幅改变音调和声音的特性,让语音发音变得模糊并降低音频的清晰度。


ARC Sonic Focus提出的虚拟重低音(Virtual Bass)技术,则是在无损语音完整性和细节的前提下,放大音频本身已存在的自然重低音数据,并扁平化扬声器的频率响应,以让扬声器的音量做到归一化(normalization)的效果。此技术能将产品的低音表现发挥到极致,更精确的反映原始音源,使得原本扁平、无活力的数字音频转化为生动的音乐或电影播放,或回复现场原声演奏时的临场感与气氛。


更重要的是,只要使用平常的喇叭或耳机就能将原本的立体声转化为自然的环场音效。对于时常收听小型PC喇叭、耳机或嵌入型电视喇叭的听众来说,能够立即感受到虚拟重低音技术对音质所做的改善。


(表一) Virtual Bass与均衡器重低音强化技术比较

Virtual Bass

均衡器(EQ)中的重低音加强功能

●在无损语音完整性和细节的前提下,增加重低音信息
●放大音频本身已存在的自然重低音数据
●延伸感知的重低音响应

●加入人工的重低音数据, 以方波或三角波的人工讯号方式来仿真重低音频号
●容易大幅改变音调,并扭曲了声音的特性


Adaptive Dynamics

压缩音频格式删除了听者察觉不到的音频数据,但事实上这会造成听觉遗失的现象,还是得靠人脑来填补这些音频空隙,所以长期聆听压缩音频会造成听觉疲累。一般的均衡器作法采用数学模型为基础,利用对特定频率的抑制来突显其他的声音,如此一来会改变电影中人声对话的音调,给人假造的感受。


Adaptive Dynamics则在维持原始音调的前提下,重塑各种压缩格式在其过程中失去的数据,并增加整个音频频段的清晰度,以得到「原音重现」的效果,听众会觉得自然而不易疲累。此技术是根据数十万听者的经验回馈而开发,能强化整个声音频谱的清晰度和发音,甚至涵盖低于耳朵能侦测到的音频,而且不会变更语音的调性,听者可以听到喇叭的自然音色。


《图二 Adaptive Dynamics强化整个声音频谱的清晰度和发音,甚至涵盖低于耳朵能侦测到的音频,听者不需担心语音的变调,可以听到喇叭的自然音色。》
《图二 Adaptive Dynamics强化整个声音频谱的清晰度和发音,甚至涵盖低于耳朵能侦测到的音频,听者不需担心语音的变调,可以听到喇叭的自然音色。》

X-Matrix

X-Matrix可以从一个二声道立体音源建立丰富的5.1或7.1环场音效环境,也就是用DSP仿真出多声道的环绕音场效果,再输出到立体声的喇叭或耳机。当使用耳机或立体声喇叭聆听5.1声道音频时,通常需要将音频由5.1声道降至2声道,但这个过程经常会使对白的音效模糊。X-Matrix虚拟技术扩大了音场并创造一个虚拟的中央声道来强调音乐段落和清晰对话,为耳机或立体音响喇叭提供完整、丰富且自然的环场经验,增加语音清晰度,不会出现相位位移瑕疵。无论听者与喇叭的相对位置在哪里,X-Matrix能让语音保持清晰,音节明确。


《图三 X-Matrix扩充音场同时增加一个虚拟中央声道,为耳机或立体音响喇叭提供完整、丰富且自然的环场经验。》
《图三 X-Matrix扩充音场同时增加一个虚拟中央声道,为耳机或立体音响喇叭提供完整、丰富且自然的环场经验。》

Extrapolator

Extrapolator技术能将二声道立体音源转换成临场般的前后音景(soundscape)环境,让人听起来有如置身交响乐厅或演唱舞台。此技术采用先进的声学模型为每个前、后扬声器单独增加细节技术,扩充立体音源成份,从立体声源产生逼真的、环绕声响体验,而不是简单的由放大扬声器发出的声音。


一些相位式(Phase-based)的技术是透过相位差和延迟的作法来扩展音效,但这样做会降低音场的动态性,而且仅限于电影音效。此种作法更大的限制是需在编码时即加入相位信息,但今天的压缩数字内容并不包含环场编码处理,这使得相位鉴别(phase-discrimination)环场音效译码技术无法发挥效用。实际上大多数的声音传播技术会将音频导引至中央声道,而后置喇叭的音频大多呈现出噪声。


相较之下,Extrapolator不需要任何环场预编码,使用物理模型在听者前后创造出两个虚拟的空间,人声和独奏乐器在前音景中更为显著,而背景效果和环境细节则突显于后音景。透过加法程序来增加动态性,而且因为不需预先编码,就能为音乐、电影、游戏等应用输出5.1或7.1声道格式的音频。


《图四 Extrapolator采用先进的物理模型技术,扩充立体音源材料,并且建立一个如临场般的多声道音景。》
《图四 Extrapolator采用先进的物理模型技术,扩充立体音源材料,并且建立一个如临场般的多声道音景。》

让影音产品大幅提升价值

为今日的中、低阶音频输出设备导入先进的音频强化技术,显然已是大势所趋。这种软件技术能够让既有的硬件条件发挥最佳的音频表现,进而突显出产品的价值。一个鲜明的例子即是在2008年CES荣获创新产品荣誉奖赏(2008 CES Innovations Award Honoree)的Ultra-Dock,当一般的iPod Dock处于低价竞争的泥沼时,Bel Canto因其在音频处理软、硬件的用心,一举将其Ultra-Dock产品提升为高阶音响市场的顶级iPod Dock解决方案,一台就要价两千美金。值得一提的是,Ultra-Dock的音频处理核心即采用了ARC Sonic Focus的强化技术。


这种产品位阶提升的效果,对于设备开发的厂商当然是非常乐见的。以液晶电视来说,因为音响效果的改善,不论是特效或演员对话都能更为清晰生动,观众当然会更肯定此产品的价值。同样的,对于手持式的多媒体手机或PMP来说,即使耳机和喇叭的低频响应很差,也能因音频强化技术而得到更佳的重低音及自然的效果。


当然,除了音频强化的后处理软件外,音频硬件也需要相辅相成,才能在效能、成本和功耗等因素上取得最佳的结果。音频硬件的处理单元包括收音的麦克风、模拟数字转换器(ADC)、编译码(CODEC)及音频处理器、数字模拟转换器(DAC),以及最后模拟音频的放大处理与扬声器/耳机的功率驱动,再播放出声音。


在这一连串的音频处理链中,居于核心的正是编译码及音频处理器,它必须支持广泛的影音编译码格式,同时具备升级和更新的弹性,才能满足今日多样且多变的影音录放需求。此外,除了音效质量外,编译码及音频处理器往往也是成本与功耗的决定关键。


以今日的照相手机或PMP来说,往往只能提供平庸的音频质量,而且电池续航力大约只能维持30个小时。因此,可移植性的消费电子产品极力于寻求在改善音质的同时也能延长电池续航力的解决方案。以ARC来说,结合Sonic Focus音频强化技术的ARC Sound Subsystem硬件子系统,即强调能提供一个完整的低功耗音频方案,能将MP3装置播放时间延长至100小时以上,同时还能节省芯片尺寸及为设备商节省庞大的材料组件成本(BoM)。


以Web为中心的消费族群已越来越多,他们已成为电子产业需求的主要推动者。我们将这个族群称为YouTube世代。YouTube世代的社交网络目前正快速在全球蔓延开来,这个族群内的消费者也刺激了新类型电子装置的需求成长,他们希望拥有随时随地捕捉、共享和播放高质量音乐与视讯影像的能力。结合音频强化技术与低功耗音频硬件系统,将为设备商带来更大的产品价值,而消费者也能得到更满意的MP3等影音质量。


---作者为ARC International 大中华区业务总监---


相关文章
剖析MEMS技术之消费性应用
低成本的MP3播放器系统整合技术
MP3 Player技术市场发展趋势
一个拥有加密系统的P2P传输软体 – MUTE
数位音乐版权的新中间路线
comments powered by Disqus
相关讨论
  相关新闻
» 瀚??引进智能家居系列产品上市 推进连网增速新趋势
» 工研院CES展後赋能科技创新 掌握AI产业链商机可期
» 国科会TTA偕新创团队挑战CES 2024 共创全球科技产业新纪元
» 圆展4K双镜头声音追踪摄影机获台湾精品银质奖
» 摩尔斯微电子与Xailient合作改变智慧型摄影机前景


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84J4P9GZ6STACUKL
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw