CTIMES- 新一代人機介面 – 語音辨識技術 :聲音輸入設備

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

【文章精選】鍺：綠色回收與半導體科技的新未來

【東西講座】11/29 智慧製造與資訊安全

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

新一代人機介面 – 語音辨識技術

【作者：莊勝達】 2003年09月25日星期四

瀏覽人次：【8615】

當全球的IA產業朝向多樣性方展的同時，語音辨識技術（Speech Recognition）也以迅雷不及掩耳之勢，迅速擴張其版圖，並逐漸地在IA領域的應用中也佔有一席之地。為此，微軟在發表新一代作業系統Windows XP的同時，即表示新一代作業系統將全面支援語音辨識技術。

隨後於2002年2月，微軟與SpeechWorks等6家從事語音辨識發展業務的公司，共同成立了SALT策略聯盟（Speech Application Language Tags Forum )，並試圖將語音辨識技術結合於未來發展的平台中。而為了發展中文語音辨識技術，微軟在中國大陸也成立了一支團隊，為未來推出的產品作準備，微軟此舉不外乎在為未來的IA產業上提前鋪路。

技術概況的介紹

在未來IA相關的產品中，語音辨識將是很重要的關鍵運用技術之一，而智慧型人機介面將會成為發展的重點。以下將詳細介紹特定語者（Speech Recognition-Dependent）、非特定語者（Speech Recognition-Independent）和文字轉語音（Text to Speech）語音辨識技術等三大類別。

《圖一語音介面技術架構圖》

特定語者（Speech Recognition-Dependent）

技術的介紹與概況

特定語者最大的特徵就是在辨識前需要錄音與訓練，不過必須依硬體所能提供的記憶體容量，才能決定能錄製的指令組數，例如可辨識20組指令，則需事先錄製20組的指令並建立順序編號，隨後原錄音人再呼叫先前所錄製的指令，才可辨識出先前錄製所在的編號。因此，特定語者只能針對原錄音與訓練者進行辨識。

主要應用的範圍

其實在市面上我們經常可以見到這類技術的應用，例如數年前Philips某一款手機就強調『聽聲辨人』的語音辨識功能，強調使用者可事先錄製電話簿中的人名並定義其錄製的名稱，然而此應用發展現已更加成熟，已不再侷限手機相關之應用。在門禁管制方面，未來若結合門禁系統，可作為人員控管的工具，將欲進出區域單位之人員預錄一組通關語錄，以語音辨識方式及聲紋比對來控管人員的進出。所以未來的通訊、行動裝置、聲控玩具與電腦週邊設備等，將成特定語者語音辨識技術的目標應用市場。

產品發展現況與競爭者比較

目前比較熱門的應用大多使用在手機（Mobile Phone）、手持裝置、與消費性電子產品。尤其是手機，目前大多看好下一代手機發展的前景，並預估未來的手機將會更充分結合語音辨識的應用，使個人的行動裝置更具有親和性與私密性。國內已有許多手機製造公司已積極規劃此項功能應用的產品，由於此項技術提供者在國內幾乎是乏善可陳，所以紛紛向代理商外購或由國外技術引進的方式結合手機的研發。這方面的技術在國外較知名的共計有英國、荷蘭、美國與以色列等約四家公司提供，不過因技術授權費用過高，所以只有極少數之國內大廠能接受。

非特定語者（Speech Recognition-Independent）

技術的介紹與概況

非特定語者與特定語者最大的差別在於使用者無須訓練與錄音就可進行辨識，其原理在於非特定語者是只需利用收集到的語音資料庫，就可以完成語音模型的比對。

主要應用

法國知名導演盧貝松曾經導演過一部喜劇電影，片中描述法國人利用語音辨識介面技術來控制一輛汽車，只要駕駛者說出某『關鍵詞』就可啟動汽車。而在今天要實現這項技術已並非難事，不但如此，還可以結合更多的應用，如利用噪音與迴音消除技術改善車用環境語音辨識率，或以『關鍵詞粹取技術』使Telematics透過語音辨識介面協助駕駛找尋地名、街道或目標，而汽車也將能聽懂駕駛者的需求並提供所需的協助，使車內宛如多了一位副駕駛，並增加行車的效率與安全性。

目前類似相關技術的應用已廣泛地被一般使用者接受，其中以『關鍵詞自動總機系統』最為普遍。以往一般公司為協助顧客來電查詢部門或聯絡人分機時，總是需要透過總機人員的協助轉接，但是利用『關鍵詞粹取技術』可取代傳統總機人員90％的人力。查詢者只要直接以聲控的方式輸入所需尋找的人名或部門即可撥接，既使查詢者有口音都可以準確地找尋。這項技術目前也可使用在『圖書館自動查詢系統』的書籍預約與查詢上。為了有效整合網站的資訊，目前研究學者將『關鍵詞自動總機系統』進一步發展出語音入口網站技術（VoiceXML Voice Portal）。此技術的應用就是方便使用者以口頭的方式來獲得網站的資訊，就好比如Yahoo入口網站一樣，利用單一入口提供線上目錄的查詢，所不同的是前者是透過語音輸入，後者是用文字輸入，而所呈現的方式也不相同，前者文字轉語音說出網站及時資訊，後者則是以文字或網址的方式來表現網站的內容。

《圖二語音辨識應用於汽車導航》

《圖三語音入口網站技術（VoiceXML Voice Portal）》

產品發展現況與競爭者比較

目前在國外提供這種類型的語音辨識技術供應商相當多，其中又以Speech Work 與Nuance較為常見，但因屬國外廠商，支援與服務尚無法滿足國內業者的需求。目前大部份的語音產品都和語言有關，因此國內廠商若要發展漢語語系以外的語音產品，勢必要面對歐美大廠的競爭而難以突破，不過國外廠商若想要發展華人市場的語音產品，必然也要尋求華人公司或個人的合作。因此，廣大的華人市場包括台灣、中國大陸和東南亞等國家，應是國內廠商鎖定的目標，而這些市場也會隨著該國家經濟的成長，呈現出一股長期成長的趨勢，所以對於國內廠商而言，這應是個非常具有遠景的機會。

文字轉語音（Text to Speech）

技術的介紹與概況

文字轉語音（Text To Speech；簡稱TTS）的技術，是讓文字透過語音辨識引擎元件，以近似人聲的語音將文字讀出，因此這也包含了語音合成技術，將語音調適成恰當的音韻。

主要應用

TTS今年最主要看好的應用是在個人數位助理（PDA），而要如何賦予PDA『說』的能力與『聽』的能力，並瞭解使用者所要下達的指令（Voice Command），這將會是今年度的一大挑戰。以往TTS主要應用在個人電腦上面，但因個人電腦的可攜性不高，降低了TTS的應用層面，所以為了能讓TTS在PDA或小型行動裝置上執行，研究人員將TTS進行『瘦身』的行動，以減低在記憶體的容量。

除了在PDA上的應用外，TTS也著重於行動手持裝置設備的應用（Smart Handheld Device），例如電子書包、智慧型手機、Tablet PC，以及移動式手持裝置（Mobile Device）等。

《圖四 PDA 語音總管技術》

產品發展現況與競爭者比較

以整個語音辨識市場發展而言，無論是TTS或是相關的語音辨識技術，對於整個語音人機介面市場應用，應是唇齒相依的發展關係。而兩者之間則具有一定的影響力，以TTS的應用而言，Voice Portal是最具有關連性。

近年來Voice Portal應用蓬勃發展，近百家新公司成立，其中包括 Audiopoint、BellSouth、 BeVocal、ScanSoft、TelSurf、 Quack.com，以及Tellme等，而業界標準以逐漸地形成，如在2000年3月被W3C採用的VoiceXML等。目前已公開的策略聯盟包括以Nuance主導的Voice Web Portal Program和SpeechWorks主導的SpeechMedia Alliance等。Kelsey Group 於2000年預測Voice Portal 的服務市場產值到2005年會達到50億美元，而Voice Portal 硬體及基礎架構則會達到70億美元市場產值。

Voice Portal 在國內的市場仍屬萌芽階段，目前廠商大都購買國外技術，但基於國外大廠的版權限制，必須付出高額授權費用，如和信電訊所提供的「Ms.600」聲控服務稱為voice-enabled IVR services，是由英泰開發建置系統並採用Philips的語音辨識技術。而凌群則引進美國Nuance公司的技術來進行股價查詢等系統整合。

台灣工業研究院成功研發移轉的範例

目前轉移台灣工研院所研發的語音辨識技術的廠商大約分成兩大類，以下將會作一個簡單的介紹。

半導體設計公司（IC Design House）

工研院移轉的技術大多以特定語者的語音辨識技術為重心，以應用於嵌入式系統。而應用的產品則有使用於互動式玩具及聲控家電中的8051語音辨識韌體、為車用免持聽筒的解決方案的聲控全雙工免手持DSP韌體，以及將Voice Command 技術應用於小型手持裝置系統的嵌入式語音辨識技術，例如第三代手機、小型手持IA裝置與未來智慧型手機等。

軟體設計與系統整合業（CTI）

工研院移轉的技術大多以非特定語者語音辨識技術與文字轉語音技術為主。而應用的產品則有辨識率高達95%以上的自動總機技術等。而在語音入口網站上面，也已研發完成E-weather氣象查詢及股票查詢系統。

總結

隨著寬頻技術與網際網路的發達，語音辨識技術的應用已逐漸深植在各類IA的產品中，而透過與終端產品的整合，將可發展成為新一代的人機介面。未來無論與電腦、資訊家電、手機或其他相關消費性的電子產品，將不會以單向介面做為溝通的模式了。而語音的應用除了以往所著重的控制之外，同時也將會朝向互動的方式發展，例如消費性的電子互動式玩具、遊戲產業的語音互動遊戲、網際網路的互動式諮詢系統，以及互動式資訊家電產品等。

對於語音辨識是否將成為新的Killer Application而帶動新一波的IA產業革命，我們不得而知，但IA資訊產品對語音辨識技術的需求越趨殷切而言，語音辨識技術的要求也相對會更日益精進。