账号:
密码:
最新动态
 
产业快讯
CTIMES / 文章 /
音乐讯号的数字化工作
浅谈DSP音频处理的观念与应用

【作者: 陳雅芬】2005年03月01日 星期二

浏览人次:【3736】

DSP是因应二次大战期间军事上的需求而发展出来,在战后,DSP进入和平用途,应用在石油、深海矿物、卫星远距探戡或者气象分析上,直到1995年Intel将DSP嵌入CPU中,以多媒体指令MMX实现Dual Core发展出single chip解决方案,DSP才正式进入高阶且平价的消费市场,DSP SoC也同时在宽带通信、数字控制、数字音频与数字视频等众多市场获得肯定。


根据Forward Concepts报告显示,通信仍然是今年DSP最大的应用市场,然而位居第二的消费性电子产品,随着数字化发展趋势,DSP又扮演着将模拟转为数字的重要转换桥梁,预估自2004年起,DSP在消费性电子的应用将会挟带庞大影响力进入人们的生活。


由于大众对生活质量要求提高,同时带动了消费性电子产品的需求量,而声音在电子产品上的呈现要求,也从只是「聆听声音」进阶至「听觉享受」。DSP能实时处理大量讯号、处理速度快且成本低,其高质量的表现结果成为数字信息产品的核心,而现阶段音频讯号透过DSP进行处理的依赖程度也就日益加深。由于人类可接收的声音源是模拟环境,(图一)是说明将输入的模拟讯号转为数字讯号,再将处理过的数字讯号转为模拟讯号过程。


《图一 DSP系统的语音处理方块图》
《图一 DSP系统的语音处理方块图》

DSP的应用领用相当广泛,在音频上的工程技术包括回音消除、噪音抑制、语音处理(语音识别、合成)、VOIP及声音压缩解压;在应用产品上有DVD/CD播放器、音响合成器、数字录音机、电子语音玩具、助听器与网络电话等。其中,音频处理主要部份又可分为声音的处理及合成、音频编码及语音识别。


百变声音发明家─合成及处理

在音乐播放过程中,数字数据的呈现结果最重要是要防止在模拟储存和运作时所造成的音质损耗。均衡器(Equalizer)能将不同频率范围的讯号分别滤出,然后再各别放大或缩小处理,最后再合成,所以能补偿讯号的频率衰减,使音质回复原音,或者也能补偿输入的不足,使音质达到理想状态。由于人类的听觉系统在低频及高频的接收上灵敏度较差,透过Equalizer强化或补足声音的功能,能弥补人们在听觉上的盲点。例如:将频率为100Hz的组成泛音放大,就会让声音中100Hz左右的低频部份听起来震撼一些,若觉得声音的低频部份不够明显,也可以用均衡器加以补足。像目前MP3播放器几乎都有Equalizer的功能,用户可选定或自定不同的播放音场(摇滚、爵士、流行音乐、抒情),充份表现出音乐的个性化。另外,变声器(voice changer)是透过声音处理技术改变原始的音源呈现,此种技术可广泛应用在电话上做安全过滤或者调整播放音调及速度后,达到语音学习的目的,成为高级语言学习机的必备功能。


《图二 三组调节均衡器图标》
《图二 三组调节均衡器图标》

创造声音的无限时间及空间─音频编码

为了满足现代人对于储存容量的需求,利用音频编码(Digital Audio Coding)可实现声音数字化后小体积、复制时不会失真、容易保存及保密等优点。音频编码有许多种,针对声音的编码有PCM、ADPCM、DM、PWM、WMA、OGG、ACC、MP3Pro以及MP3等等,目前最常见的为MP3;针对人类语音有LPC、CELP与ACELP,文中会以CELP做介绍。


MP3声音编码

MP3是MPEG 1 Layer III的简称,是由MPEG(Moving Pictures Expert Group)所制定的影音压缩─声音部分。目前已在市场上销售的MP4,并非是MP3的延伸,MP4是指小尺寸屏幕的视讯产品,MP3具有可携式「随身听」的特色,而MP4的小屏幕设计却与人类一般的视觉习惯背道而驰,也减损了「随身看」的原意。


MP3的编码原理主要是利用人耳听觉的特性,从声音中去除人耳听不到的信息。人耳因为构造的关系,在接收声音时均会在频率与时间上产生遮蔽效果(masking)。所以MP3根据这样的特性采取了「感官编码技术」(perceptual coding techniques),即编码时先对音频数据进行频谱分析,利用人耳听觉上的遮蔽效应,将量化噪声限制在人耳无法察觉的范围内,除了能够提供高压缩效率,还能保持非常好的音质。


《图三 MP3编码器》
《图三 MP3编码器》

(图三)为MP3压缩编码的方块图,讯号输入为PCM格式2×768kbps,经过filter bank将讯号分为32个子频带,同时PCM讯号经FFT转换后,利用人耳的心理声学模型(Psycho-acoustic model),决定必须量化的频谱与量阶并进行第一次的编码(有损压缩)。编码结果再用无损压缩作第双步编码(Huffman encoding)。最后因应通讯需求,加上封包信息与错误更正码,即完成编码过程。而译码过程即为编码反运算(图四),将封包解开后,经过Huffman decoding,得到量阶与频谱,再经反离散余弦转换(IMDCT)及filter bank将各频谱讯号组合,即可还原成PCM讯号。


《图四 MP3译码器》
《图四 MP3译码器》

DSP大量使用在声音处理部份,像CD播放器的声音输出便是使用DSP进行Reed Soloman Code的编译码,因而即使音轨上有些许损毁,还是能自动更正错误,拨出毫无受损的音乐。此外,高阶DAC(Digital Analog Converter)中的△Σ也是利用DSP进行噪声整型,可将讯号频带内噪声抑制至最低而达到高讯杂比(SNR),让声音拥有更真实完美的呈现。


CELP语音编码(Code excited linear prediction)

CELP是近来最成功的语音编码算法,具有语音质量清晰及计算量合理之优点。CELP是一种高效率(压缩比较高)的语音编码技术,由于采用了感觉加权、分析合成、向量量化和后滤波等技术,CELP能够在中低速率上完成高质量的合成语音。像同样128Mb Flash的记忆容量,以ADPCM进行编码,只有8小时的储存空间,而CELP编码却能达到36小时。不过,CELP在6~8k的带宽环境下使用,能维持较佳的音质,而在4kbps的速率时,激励码原始尺寸小,因此合成语音质量较差。为了提高此速率的合成质量,往往需要增加处理长度(例如30ms或更长),不过,这会使编码延长时间,另外还需要增加算法复杂度和内存容量,才能得到令人比较满意的合成语音质量。目前CELP已经被许多语音编码标准所采用,除了高质量的窄带语音保密通信外,需要长时间录音(10小时以上)的消费性产品,如录音笔或录音棒也是使用CELP技术。


只动「口」不动手的年代─语音识别

英特尔的创办人摩尔在接受媒体专访时,曾直指「语音技术」将是影响未来科技发展最关键的技术,「半导体教父」的预言,让语音技术的发展,顿时受到全球的注目。所谓语音识别最主要目的是让电子设备,譬如计算机能听懂人类说话的语言或命令,而做出相对应的工作。当声音藉由模拟到数字的转换装置输入计算机内部,并以数字方式储存后,语音识别程序便开始启动,将事先储存好的声音样本与输入的声音样本进行比对工作。声音比对工作完成之后,辨识程序会输入一个它认为最"像"的声音样本序号,理解用户刚刚发出声音的意义,进而命令计算机做事。


但要真正建立辨识率高的语音识别程序,却是非常困难而专业的。例如:"声音样本"要如何建立呢?简单来说,如果要辨识10个字,那就是先把这10个字的声音输入计算机中,存成10个参考样本,辨识时,只要将本次所输入的声音(测试样本)与事先存好的10个参考样本一一对比,找出与测试样本最像的样本,即可把测试样本辨识出来。但是,别忘了语音频号还有一项重要的特性:在不同时间,虽然说的是同一句话或相同的音,但其波形却不尽相同,也可以说语音是一种随时间而变化的动态讯号,做语音识别就是要从这些动态讯号中找出规律性,一旦找到规律性之后,讯号再怎么变化,大致都能撷取出它们的特性,进而将它们辨识出来。这种规律性在语音识别上称为特征参数,也就是能够代表讯号特性的参数,语音识别的基本原理就是以这些特征参数做基础。


要建立一个语音识别系统仅有一组好的语音特征还不够,还要有一个好的语音识别模型和算法。目前,在研发完成的语音识别系统中,基于统计的HMM算法可能是最为成功的一种。现今所见的各种性能优良的连续语音识别系统,几乎无一例外地采用这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究比较深入,也已建立起完整的理论框架。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的,而是以某种隐含的关系与语音的特征相关联。而这种隐含关系在HMM模型中通常是以机率形式呈现,输出结果也是以机率形式表示,为系统最后的稳健判断创造了条件。


目前的语音识别系统已达到可接受的程度:手机可用语音声控拨号,汽车的卫星导航系统也能透过语音「说」出路线。


《图五 人类语音模式》
《图五 人类语音模式》

数字声音全面进攻消费性电子

现阶段以DSP来发展消费性电子并未存在高难度的技术障碍,目前所要关注的重心反而是针对整体系统的了解并做优化的设计。由于系统的弹性与效率通常无法兼顾,愈有弹性的架构设计,其执行效率就会愈低;反之,执行效率愈高,操作系统通常就愈没有弹性。所以设计者在做技术架构规划时,就必须在弹性度与专业度间取舍并做最佳的判断。另外,由于消费性电子的使用对象是一般大众,在追求经济成本的目标时,除了硬件架构设计外,也要保留软件的修改空间,以软硬件优化方式来追求最佳成本。


DPS未来的发展重点将是低耗电量、更快的频率速度与价格的竞争,尤其在可携式产品的应用上,如何提升效能又同时兼顾耗电量的问题,乃是最需要重视的问题。而在音频处理方面,也有很大的改进空间,声音合成要创造出更真实、更自然、更丰富的声音;在声音压缩方面,再继续提高压缩比率,以更少的空间储存更多的信息并保有更真实的声音;在声音辨识方面,希望能做到让机器产生更好的反应,开发出更加友善的使用产品。而噪音抑制技术愈加成熟后,人们也将享受到整体声音环境的提升。


结语

随着数字化进程的加速,未来数字讯号将会取代更多的模拟讯号环境,这意谓将有更多的音频产品采用DSP作设计。例如:扩大机数字化后,在可接受的音质范围内,D类放大器更能达到高效能运作,其它像数字电话、数字广播、数字电视等相关音效设备,也都将促进DSP的蓬勃发展。目前音乐的单元格式早已由CD取代传统的Tape,如今在数字可携式音乐的浪潮推进下,MP3格式大众化的年代已经宣布来临。虽然仍有许多技术问题尚待克服,但声音的数字化显然正在快速前进中,将带给人们生活上更多的便利与享受。(作者为AT-Chip演算科技营销企划部副理)


相关文章
用Arduino 打造机器人:循迹、弹钢琴、下棋都行!
树莓派推出AI摄影机、新款显示器
智慧充电桩百花齐放
充电站布局多元商业模式
以爆管和接触器驱动器提高HEV/EV电池断开系统安全性
comments powered by Disqus
相关讨论
  相关新闻
» 工研院MWC 2024展会直击 5G-A无线通讯、全能助理成下一波AI风潮
» 经部「2023玩学5G新视界」 引领台湾网通产业跃上国际舞台
» 取得ISO 14064-1作为净零起手式 鼎新以碳总管助力企业跨步绿色转型
» 经济部主办通讯大赛连线全球 多国创新应用现身
» 经济部支持跨国研发有成 台欧双方分享B5G~6G规划


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK85D2QDYSMSTACUKX
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw