用语音来使唤机器吧

│新东西市集│东西讲座│影音频道│出版中心│智动化专区│

元件次系统自动控制

最新动态

06/21东西讲座：运动科技的应用与多元创新，立即报名叁加！

06/06东西讲座：新供应链崛起的稀土管理策略，名额有限，请尽速报名!

产业快讯

6/20-6/22台湾国际医疗暨健康照护展

COMPUTEX2024将於6/4-6/7热烈展开

6/26-29台北国际食机&生技展叁观登记

2024 TaipeiPLAS热烈徵展中

CTIMES / 文章 /

用语音来使唤机器吧

【作者：郭志忠】2004年08月26日星期四

浏览人次：【6912】

二十世纪是人类科技起飞的时代，许多重要的发明都在这个世纪诞生，如个人电脑、网际网路、个人无线通讯、以及宽频通讯的发展等。不过在这当中，有一个重要的元素就是新世代的人机互动技术。从机器的观点来看，可以使机器具有类似人的感知与表达能力而更有智慧性；而从人的观点来看，可以用更自然人性的方式来获得机器设备自动化的服务。

在人类日常生活经验中，最主要的还是触觉、视觉，及听觉等这几种互动方式。而人与机器也是以几种人体知觉，来作为互动的方式，如(表一)。

表一　五种人体知觉作为人机互动方式分类

人体知觉	触觉	视觉	听觉	嗅觉	味觉
人体感官	手	眼	耳	鼻	口
人体操作与表达	按压、旋钮、碰触、踩踏	文字、表情、手势、姿势	语音、肢体声响
传播媒介	物理接触	电磁波	声波	空气微粒	化学物质
机器Sensor	键盘、滑鼠	摄影机	麦克风	气体感测器	化学感测器
机器Display	弹簧、马达	萤幕	喇叭	气体喷雾剂	化学药剂

语音语言处理核心技术

语音语言是人类最重要的沟通互动方式，并可视为人与人之间的标准化通讯协定，以下就先从各个核心技术开始说明。

电话语音辨识技术

电话语音辨识技术是一种整合电脑电话及语音辨识的技术，应用这项技术可以使多项语音服务自动化，且更有效率。例如(图一)为工研院自动总机系统的使用流程图，透过自然的口语问句，可以查询工研院约6500人的电话分机号码，并自动进行转接。其中的核心技术包括：

* 语音辨识（Speech Recognition）：可以辨识单词语音，或是连续语音中的关键词（关键词粹取：Keyword Spotting）技术。如(图一)中的语音输入- 「电通所王大明」，也可以改成「请问王大明的分机」或「我想找王大明先生」等，只要有包含「王大明」这个关键词，它都可以辨识得出来。

* 词语验证（Utterance Verification）：确认所辨识之语音是否为该候选词汇，可用以判断非法词汇而加以拒绝。

* 语音插话（Voice Barge-in）：电话语音输出时，借此技术可允许语音在输入插话的同时，辨识出其中的语句。例如当系统还在播放「工研院自动总机您好，…」之输出提示语音时，熟悉的使用者可以不等系统「说」完，就直接「插话」说出要找的人名。

《图一工研院自动总机系统使用流程图》

语音辨识晶片韧体

语音辨识是一项运算复杂度高，又容易受噪音影响而大幅降低辨识率的技术。为了让语音辨识器在记忆体和运算速度有限的晶片上运作，除了让可辨识词汇减少外，研发单位还必须适当地缩减语音模型，并发展一项运算量极小的抗噪音技术和声音自动侦测机制，让语音辨识器可以在DSP和8051晶片上运作。

因此，该语音辨识器除了小词汇量的限制外，仍具有非特定语者（不需使用者输入训练语音）、声音自动侦测、抗噪和即时等特点。此项技术可应用于声控玩具、手机的语音拨号，及汽车上的冷气、影音系统或中控锁等。

车内环境语音辨识

汽车驾驶在开车时，若可以用语音来控制影音播放或冷气温度调节等动作，将可有效减少驾驶者因眼睛离开前方道路而发生危险的机会。然而一般的语音辨识器易受车内噪音干扰而降低辨识率，所以为了强化车内语音辨识器的效能，实验单位得在频谱上做杂讯去除处理，并以专利的方法求取特殊语音频带的能量参数。

而实验结果显示，在不同的行驶速度条件下，语音的辨识率并不会有明显的变化，并借此克服汽车噪音对语音辨识所造成的障碍。

语者验证

语者验证是利用语者声音上的个人特征，来进行身份的确认。有别于传统的身分验证方式，语者不需携带图章、钥匙、磁卡，或是其他身分识别工具，而是利用本身的声音特性。使用者只需说出适当的语句，语者验证系统便会抽取、比对语音中的特征参数进行身分确认，对使用者而言十分便利。但是人的声音本身会随着时间而逐渐改变，所以适当的语者调适机制，能有效减缓此种特性对语者验证造成不良的影响。

(图二)为语者验证系统架构图，VAD（Voice Active Detection）为语音侦测模组，用来侦测输入语音段落。 Speaker Model代表某一特定语者之语音特征参数模型；而Anti Model则代表其他语者的语音特征参数模型。语者验证就是藉由比对输入语音与这两个模型的相似性，以决定接受或拒绝其验证结果。

《图二语者验证系统架构图》

文字转语音合成技术

文字转语音合成技术是透过电脑处理后，将任意输入的文字转换成语音输出。使用者不需要针对特定文字内容预录语音，只要将文字内容输入电脑，电脑即会自动处理包括日期、时间、电话、金额、项次等数字的正确读法，同时也可以处理常见特殊符号、英文缩写等正确读法。这项技术采用具有中文断词容错能力的韵律合成，并生成音质无衰减及具有韵律变化的合成语音，提供近似真人的发音。

语音合成技术应用的范围非常广泛，例如：中文朗读机、电子邮件电话随听系统、人机口语交谈系统、网路有声导览、电脑电话整合（CTI）、语音入口网站（Voice Portal）、数位助理（PDA）、语言教学软体、身心障碍辅助等应用。

《图三工研院文字转语音合成技术设计与合成系统流程图》"》

语音讯号强化技术

使用如免持听筒电话、视讯会议等免手持通讯系统，通常都以免手持式麦克风（Microphone）与扬声器（Loudspeaker）作为输入／输出装置。但使用这种装置于汽车或会议室等密闭空间时，常会面临语音品质不佳的问题，其发生的原因通常是由声学回音（Acoustical Eecho）及背景噪音等造成，如(图四)。语音讯号强化技术的目的，就是要设法去除麦克风输入讯号中，所隐藏的回音及噪音，并提升此类免手持通讯系统的通话品质。

《图四声学回音与背景噪音所造成的不良通话质量》

中文断词与名词辨识

相对于英文书写中每个字（word）之间都会有空白间隔，使断词更为容易，但中文在这方面就显得较为困难。因为中文自然语言处理中，最小的基本单位是「词」；而在中文书写中，每个最小的单位是「字」。因此在中文的文章中只有字的界线而无词的界线。只有正确地将文章的断词，才能使更高层次的自然语言分析模型（关键词组、句法、语义等）得以进行，所以中文断词是个相当基础且非常重要的工作。

而如果可以将文章中特殊名词，如人名、时间、数字、组织名称等辨识出来，则将会有效地提升断词准确度。当然中文断词与名词辨识的成效，将影响许多自然语言处理（NLP）的应用成败，例如文件管理，资讯检索、语音辨识、机器翻译等。

《图五工研院中文断词与名称辨识系统架构》

语音语言整合应用技术

在不同的平台或情境的条件下，整合各种语音核心技术，并结合各种资讯、通讯技术，以发展出更复杂的应用技术。

资讯家电语音介面技术

目前的资讯家电，如PDA和SmartPhone等，随着科技不断地精进下，在体积与功能上也渐趋短小精干，因此更需要轻薄短小，及适合人机沟通的语音介面来进行辅助。目前的资讯家电语音介面技术具有快速、方便和高辨识率的优点，可让使用者轻易地经由语音命令，来完成资讯家电的操作与服务功能。

这种介面程式内建HMM语音模型，不须经过使用者的训练，即可同时辨识1000个以上词汇，辨识率达93%以上，另外文字转语音核心可用来阅读Email等Internet上的文字资讯。

这种介面适用于各资讯家电产品，以及WinCE和Linux等作业系统；不过因本身是纯软体化的设计，所以不需大量的硬体需求。此外，辨识与文字转语音核心包装成函式库的设计，可轻易的配合客户的应用软体修改使用。

口语对话系统

口语交谈系统是以口语来和机器作沟通的技术，为了要使机器能像人一样对答，必须包含以下的模组：语音辨认模组（Speech Recognition）、语言理解模组（Language Understanding）、交谈管理模组（Dialogue Management）、语言生成模组（Language Generation）、语音合成模组（Speech Synthesis）。

使用者在输入语音讯号（Speech）后，由语音辨认模组转换成文字（Text）。而语言理解模组会藉由语法和语意分析，将文字转换成代表意念的语意框架（Semantic Frame）。此时，交谈管理模组会依据这些语意框架来决定交谈流程，产生系统回应的语意框架，再传至语言生成模组生成文字语句（Text）。最后再由语音合成模组将生成的语句，转成语音回答使用者（Speech）。

《图六口语对话系统流程图》

语音代理人

「语音代理人」技术是线上即时对话系统（On - Line Spoken Dialogue System）的延伸，除了线上对话之外，还提供离线工作委派（Off - Line Task Delegation）的功能，如使用者可提出「明天早上六点半叫我起床」、「台积电涨到五十元时通知我」等需求。因此「语音代理人」技术须扮演两个不同角色：

1. 与使用者沟通并确认委派的工作内容，如同一般的对话系统。

2. 离线执行委派的工作，例如监控执行委派工作的条件、向其他系统要求相关资料等，如同代理人（Agent）的角色。

《图七口语对话系统流程图》

跨语言交谈介面技术

跨语言交谈介面的输入／输出可以是文字、手写字或语音，其核心技术包含语音辨识、手写字辨识、翻译机制，及语音合成等。语音翻译技术目前的技术发展现况系以特定领域应用为主，在语音辨识及语音合成方面，则是采用一种语言配置一个语音辨识引擎与及一个语音合成引擎的做法。至于翻译机制的部分，则以两阶段中介语（Interlingua）法间接式翻译为主，也就是将语音辨识结果经语法（Syntactic）与语意（Semantic）分析后，透过翻译模组做翻译，并再将翻译结果合成语音后输出。

《图八跨语言交谈接口流程图》

结语

在人机互动的介面中，语音技术是最传统也是最具实用性。不过除了语音之外，还有以影像为主的影像视觉技术，或以仿人型态的多元模式技术等。虽然目前这些技术还未完全研发完成，但已有一些研究单位已经在应用了，如国内的工研院等。此外，许多家电用品也可见到语音技术的踪迹，如PDA或声控电扇、电灯等。在语音技术日趋成熟之际，相信也会带动起其它人机互动介面的技术，让家电能够更人性化，并了解人类的需求。

＜作者为工研院电通所前瞻技术中心副主任＞