CTIMES- 淺談Audio壓縮技術發展現況 :MPEG Audio,VCD,DVD,SVCD,CVD,MP3,MPEG-1,MPEG-2,AC3,AAC,MPEG-4,SoundVQ,ATRAC,Super Audio CD,WMA,Perceptual Coding,Dolby,杜比,Moving Picture Experts Group,YAMAHA,SONY,索尼,新力,Sharp,Microsoft,微軟,Cirrus Logic,TI,德州儀器,德儀,音效處理器

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

【文章精選】鍺：綠色回收與半導體科技的新未來

【東西講座】11/29 智慧製造與資訊安全

【東西講座】11/22 新一代雙臂協作機器人：多元應用與創新商業模式

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

淺談Audio壓縮技術發展現況

【作者：陳惠芳】 2000年04月01日星期六

瀏覽人次：【8334】

在過去10年，CD音質的數位音樂已漸漸取代了類比Audio，CD Audio的取樣頻率高(44.1kHz,16 bit)，不僅聲音資料保存容易且有著更好的聽覺享受，但不經過壓縮的音訊資料量太大，在數位音樂應用整合到網路、無線通信、多媒體，就面臨到要降低Channel頻寬、有限儲存容量及低成本等問題，而經過壓縮的數位Audio技術讓Audio資料更有效率的傳送及儲存，成為新寵。

MPEG Audio是一個開放的音訊壓縮標準，普及性高，目前的應用有VCD、DVD、SVCD、CVD、MP3。但MPEG-1的聲音輸出是2聲道，在講究臨場感的劇場或家庭劇院應用，則需要MPEG-2及AC3的多聲道聲音輸出，當前普遍應用在DVD Player上。另一方面，配合Internet傳輸的便利性，使得傳統音樂市場，也轉向數位化、小型性，與可攜性的方向前進。在各種環境下的應用，發展了許多的壓縮方法，有A2b、MPEG Audio、AC3、Advanced CELP、Voxware、SoundVQ、MP3、AAC、WMAudio等等。

當前，MP3的壓縮解壓縮工具相當普及，應用的音樂類型符合一般的市場，造成一股風潮，刺激了音樂出版市場，改變使用者習慣，從網路上下載音樂。相對的，廠商也提供了便利的播放環境，於是，可以播放音樂的手機，手錶，PDA等產品，也漸漸取代了傳統笨重的播放系統。對IC設計者而言，目前最大的課題是以現有的硬體，整合各種的音訊壓縮標準，迎合未來可能的產品應用，以下將就幾項音訊壓縮標準作簡單介紹。

各種壓縮標準MPEG

MPEG是由Moving Picture Experts Group所訂定的一系列公開標準，MPEG-1涵蓋高取樣頻率的Stereophonic訊號，有著Transparent Quality；相較之下，MPEG-2提供Low Bit Rate的Stereophonic Audio、多聲道的壓縮及更高音訊品質的聲音。

MPEG-1依照壓縮及解壓縮的複雜度可分成3個層級(Layer)，各有不同的目標應用。Layer1適用在Consumer產品，BitRate從32kbps到448kbps，訂定的應用目標是DCC、Solid State Audio。Layer2相較Layer1提供更好的壓縮比，主要用在Consumer及Profession的產品上，像是Audio Broadcasting、VCD、SVCD、CVD，BitRate從64kbps到384kbps。在MPEG-1中，壓縮效果最好的就是Layer-3，一般簡稱MP3，它的壓縮比約10到12倍，舉例來說，CD音質的聲音(44.1khz)，一分鐘歌曲壓縮後的資料量為60*44.1k*2ch*2Byte =1M Byte，一片光碟可以存放750 MByte=750分鐘的MP3歌曲=200~250首歌曲，容量相當驚人。

MPEG目標在Generic Audio，也就是各種類型的Speech和Music Signal，是屬於Perceptual Coding。在Encoder端，將聲音經過Filter Bank切割成32個相同頻寬(Subband)的頻率訊號，同時利用Psychoacoustic Model(人耳聽覺模型)，由聽覺遮蔽效應，計算出人耳對於各個頻帶的聲音的敏感度，決定各個頻帶的位元個數及Quantization Scale，藉此以較低的資料量達到更好Audio Quality，最後將Quantize之後的聲音樣本，包裝成MPEG 標準的格式。

在Decoder端，僅需要回復、重建Quantized Subband Sample，再將一組組的Subband Ssample轉成時域的Audio信號，相對於Encoder，複雜度較低。各個Layer的Encode和Decode的複雜度比可參考(表一)。Layer3的的高壓縮比使用的技術之一是Switch Hybrid Filterbank，多加一組MDCT，將頻率分成576個，在聲音的處理上可以有更細膩的效果。另外，以Huffman Coding儲存Quantized Sample降低資料量，所以可以比Layer1 及Layer2有較好的聲音品質而不增加資料量太多(圖一)(圖二)。

《表一　MPEG-1 Layer1,Layer2,Layer3 Encoder和Decoder的Complexity比較表》

《圖一　MPEG1 Encoding/Decoding Block Diagram》

《圖二　Layer3 Encoding/Decoding Block Diagram》

以各個Block的複雜度來看，Filter Bank所耗計算量最多，總共在一個Frame裡(一個Frame要在26 ms內解碼完成)要作36次的32點DCT，及乘大小為512 點的Window，這部分在實作上多以快速演算法取代，或是由獨立Hardware完成以達到Real-Time的要求。

MP3目前的應用已相當多，利用uP加上Dedicated /Accelerated Hardware或是DSP-based 的產品都有，TI、Motorolla、AnalogDevices、Samsung都已發展完成MP3的解碼晶片。

MPEG-2：

MPEG-2以是否與MPEG-1相容(Backward Compatible)分成兩大部分，與MPEG-1相容的標準提供多聲道，產生的聲音更有臨場感(圖三)，同時也提供多語言，目前在DVD Player for PAL的系統規格上，Audio部分是將MPEG列為必要規格。MPEG-2的壓縮解壓縮的原理與MPEG-1類似，但是為了降低多聲道資料量，用到CrossTalk、Prediction等技術。與MPEG-1相容的這部分標準除了多聲道之外，另有一個標準是以較低Sampling Frequency，應用在需要資料量較少的產品上。

《圖三　MPEG-2 Multichannel BitStream》

在MPEG-2中的另一個標準是AAC(Advanced Audio Coding)，與MPEG-1不相容，AAC運用高解析度的Filter Bank，以一半於MPEG-1的資料量提供更好的聲音品質，在1996年英國的BBC及日本的NHK都證明AAC的Quality滿足ITU-R的要求(圖四)。AAC結合了1024點的MDCT，Temporal Noise Shaping、Prediction及Noiseless Coding等技術，來達到低資料量、高聲音品質。為滿足不同需要，AAC提供三種Profile，Main Profile的Quality最好，MPEG-2 Low-Complexity Profile不用到Prediction，Sampling-Rate-Scaleable Profile的複雜度最低。AAC同時也是MPEG-4 Audio的Kernel之一。

《圖四　AAC Encoding Diagram》

MPEG-4：

這個標準分成兩部分：Synthetic Coding(MIDI、TTS、3D-localisation)及Natural Coding(Parametric Codec、CELP、MPEG2-AAC)，目前尚未完全定案。

AC3：

這是由Dolby發展的Audio Standard，原是為了應用在電影膠捲上，為了節省空間而把人耳聽不到的聲音刪除，節省資料量，與MPEG一樣都屬於Perceptual Coding。AC3最多有5.1個聲道，包含5個全頻的Channel及一個超重低音Channel，所以定位能力很好，而資料量在5.1 Channel時是384-640kbps。DVD Player NTSC系統的規格裡將AC3列為必要的Audio規格。與MPEG最大不同點，在於雖然AC3包含於ATSC的標準之中，但實作時必須向Dolby License及通過Dolby的認證。

AC3是Adaptive Transform-based的編碼(圖五)，用Princen-Bardley的TDAC(Time Domain Alais Cancellation)的FilterBank，Filterbank-based的編碼，保留信號和Quantization雜訊，在經過人耳聽覺模型，消除人耳聽覺上感覺不到Noise的資料，減少資料量。每一個Block有512個Sample，經Overlapping及MDCT Transform轉成256個頻域Sample。

《圖五　AC3 Encoding/Decoding Diagram》

同樣是利用人耳聽覺模型作位元的分配，AC3將Transform的時頻Sample分成Exponent和Mantissa分別Encode，由Exponent去計算個別Mantissa的解析度，可以提高聲音的品質，在位元分配時，考慮到不同Channel之間的相似性，將部分Channel作Coupling，及相近的Exponent或Mantissa Encoding在一起，以節省多聲道的資料量。

在實作上，最耗時的是Transform Kernel，而如果要通過Dolby認證，這部分運算可能累積的Error也要特別注意。其次是BitAllocation，在Encoding和Decoding端都必須計算BitAllocation，由解出來的Exponent計算Mantissa的位元數，因此在Real-Time Decoder這部分的負擔僅次於Transform Kernel。

SoundVQ：

這是由YAMAHA研發的壓縮標準，壓縮大小是MP3的30%~35%，80kbps的VQF檔聲音品質相當於128kbps的MP3，不過Sound VQF的解壓縮複雜度約是MP3的2倍，目前壓縮的BitStream較不多。

ATRAC(SONY SACD)：

Sony、Sharp陣營主導的Super Audio CD，主要應用在MD上。用到的FilterBank是Hybrid QMF/MDCT。

WMA：

迎接數位音樂時代，Microsoft推出的Audio壓縮標準，期望對在Internet上銷售的的版權資料有更好的保護，並為CD-音質的音頻信號提供更好的壓縮。目前Microsoft在Streaming方面的技術Windows Media Technology中包含了WMA(Window Media Audio)，壓縮後的檔案大小是MP3的一半，而聲音品質與MP3相當，解碼的複雜度也和MP3相當，是繼MP3之後頗受注意的壓縮標準。WMA之上有一層DRM(Digital Right Mangemnt)，作音樂版權認證。目前WMA已實作在Cirrus Logic、TI的晶片上，預估支援WMA的PDA和Portable Device會越來越多。

總結

人耳可以聽到的聲音頻率範圍在20~20kHz，要有高的音訊品質，同時要降低資料量，人耳聽覺模型及聽覺模型是最常被應用的，MPEG及AC3都是屬於Perceptual Coding，壓縮/解壓縮的演算法上有部分相似性。在IC設計的實作上，可以有機會共用部分硬體，降低成本。

目前的DSP運算能力越來越強，而更高聲音解析度及多聲道的壓縮標準，在劇院或是數位AV產品，資訊家電上，被應用的很廣；另一方面，網路和可攜性產品普及，也造就數位音樂的一片天空。高壓縮率、高品質的壓縮音訊與生活息息相關。目前，另一個重點是保密的機制，由於音樂保密及版權的標準未定，對IC設計者而言，不明確的規格在發展上是成本的增加，相對的也使數位音樂市場的腳步變慢，因此訂定一個統一的音樂保密協定及付費規定將有利加速市場的發展。

‧	Sony強力加持！樹莓派發表專屬AI攝影機
‧	開啟HVAC高效、靜音、節能的新時代
‧	準備好迎接新興的汽車雷達衛星架構了嗎?
‧	以爆管和接觸器驅動器提高HEV/EV電池斷開系統安全性
‧	低 I_Q技術無需犧牲系統性能即可延長電池續航力

comments powered by Disqus

相關討論