帳號:
密碼:
最新動態
產業快訊
CTIMES / 文章 /
高性能DSP與深度學習語庫是智慧語音開發關鍵
家庭語音助理迎十倍成長

【作者: 王景新、籃貫銘】   2018年11月12日 星期一

瀏覽人次:【13716】


亞馬遜(Amazon)智慧音箱Echo的成功,改變了整個智慧語音應用的市場風貌,現在人們談到智慧語音,腦海浮現的不是Siri,而是Alexa。而應用的場景也不是行動優先的手機,而是在家庭。


目前在美國市場,智慧音箱已在日常的家庭生活中有著日漸穩固的地位。根據研究機構PwC對1,000名美國成年人進行的調查顯示,65%的消費者在進行烹飪時,會使用獨立的智慧音箱;反之,使用行動裝置進行語音輔助的比例僅為37%。此外,在處理多重任務和觀看電視時,智慧音箱都是他們的主要選項。


家庭應用是智慧語音技術的主場

由此可見,家庭應用無疑是智慧語音技術的主場,而且更重要的是,幾乎所有的消費者(93%)都對這些語音助理感到滿意,但智慧手機上的語音助理則是最消費者滿意度最低的一項。


所以毫無疑問,智慧語音助理在數位家庭用中的比重將會開始飆升。IDC的最新報告就指出,全球智慧家庭裝置市場,包括智慧音箱,數位媒體轉接器,照明,恆溫器等,預計2018年出貨量達549.5萬台,比去年成長26.8%。其中最熱門的兩個類別是智慧音箱和影片娛樂產品,預計將佔2018年智慧家庭產品市場價值的71%。


另一家國際研究機構Juniper Research也指出,亞馬遜Alexa與谷歌語音的智慧家庭助理裝置,在未來五年將有望達到十倍(1000%)的成長。預計使用語音助理的數量,將從2018年的2500萬,成長到2023年的2.75億。這一成長的主要動能就是智慧家庭解決方案的大量成長。


而隨著智慧語音在家庭應用規模的飆升,相關技術供應鏈的也將迎來美好的年代,其中晶片與模組供應商會是最主要的獲利者。然而,相較於傳統的獨立、零散的語音設計方案,當前新一代的智慧語音,則是走向整體解決方案的形式,也就是結合晶片、軟體與雲端,並具備AI和機器學習的技術支援。


優化語音品質 高性能與低功耗是DSP的硬道理

瑞昱半導體(Realtek)是台灣老牌的音效晶片供應商,其DSP晶片已被廣泛用在各式消費性裝置與PC平台。而隨著進入智慧語音世代,瑞昱的DSP也從高運算能力、大容量、省電,轉移至神經網路技術(Neural Network Learning)與Video演算法,以往4到8個mac,目前已往300至1000個mac走。此外,配合消費性電子輕薄產品趨勢,DSP體積也同步縮小。


「語音最自然,可以存在於每個裝置上面。」瑞昱半導體電腦周邊事業群副總經理蘇祝鼎說道。



圖1 : 瑞昱半導體電腦周邊事業群副總經理蘇祝鼎相信,未來每個裝置都將支援語音介面。(攝影/王景新)
圖1 : 瑞昱半導體電腦周邊事業群副總經理蘇祝鼎相信,未來每個裝置都將支援語音介面。(攝影/王景新)

瑞昱認為,語音介面的技術很多,概略可分為軟體、硬體兩大項,之後又可再依照是人和人之間的溝通(voice),或是人與機器間的指令(speech),這兩者的技術又不相同,語音辨識之前有一段的pre-processing(前處理)跟語音品質息息相關,是為技術層面的最大挑戰。


「我認為最大的挑戰是怎麼去處理語音的品質。」蘇祝鼎強調。


他舉例,人跟人之間的溝通,即便是在環境較嘈雜的咖啡店,我們仍能清楚接受同伴的訊息;機器則不然,「我們有一種過度期待是可以站得很遠,或很吵的環境,機器還可以聽得懂。」易言之,使用者對人機介面語音品質接收成功與否有很高期待,期待能跟人際溝通一樣順暢無礙。


「我們在硬體的部分,專注於Codec跟DSP上。」蘇祝鼎說。他也指出,高品質、低電耗依舊是技術發展的硬道理。至於軟體部分,瑞昱將重心放在Voice Processing。


他表示,過去瑞昱讓終端用戶自己選擇使用的環境,然後再提供相應的對策;現在的趨勢是,讓軟體自己偵測使用環境,具體而微地分辨出咖啡廳、餐廳、家裡等,而瑞昱已投入了20年。


蘇祝鼎指出,語音介面的硬體挑戰不在編解碼器(Codec)本身,而在數位訊號處理器(DSP)上。如果為了提高識別率,動不動把SoC叫起來,將相當耗電。


他分析,國外有大廠作法是辨識處理部分往雲端丟,漏掉一個關鍵,這除了也耗電,更疏忽了資料保密性的重要。目前的技術趨勢是,前處理同步進行個人語音,所以一顆DSP晶片有二分之一都是記憶體,跑得動演算法之外,也須具備省電特性。


雖然瑞昱並非麥克風或喇叭廠,蘇祝鼎仍點出這兩項硬體的擺放位置,直接影響收音好壞。


「收音設備機構設計上如果有問題,再好的算法跟硬體DSP,可能都救不了。」他舉例,曾經碰過有人把麥克風擺在風扇旁邊,對語音辨識就是較不理想的擺放位置。他強調,人的語音特徵不能被破壞,雜音抑制(Noise Surrpressing)做過頭,人聲辨識不出來;做太少,則音感不好。



圖2 : 瑞昱半導體通訊網路事業群總監沈家慶拿著的Ameba Pro僅2.7乘以2.2公分大小。(攝影/王景新)
圖2 : 瑞昱半導體通訊網路事業群總監沈家慶拿著的Ameba Pro僅2.7乘以2.2公分大小。(攝影/王景新)

通訊網路事業群總監沈家慶則特別介紹旗下一款Wi-Fi SoC晶片Ameba,其以具有改變其形狀和適應能力的真核生物體命名。產品像其名字,Ameba可以應用於幾乎每個IoT應用。這款晶片整合了Wi-Fi與MCU和豐富的I/O介面。


深度學習技術解決人類自然語意難題

不同於瑞昱在音效技術上的長期投入,威盛電子(VIA)則是從處理器端起步,並透過在運算端的優勢,在近期轉往發展人工智慧(AI)技術,並將之運用在智慧語音上。


OLAMI(歐拉蜜),便是威盛獨立開發的智慧語音助理方案,未來將融入智慧電子看板、電視牆,和物聯網(IoT)應用等。OLAMI基於深度學習(Deep Learning)的語音辨識與電腦視覺等相關技術,具備語音檢測、回聲消除、噪聲抑制語音辨識;自然語言理解、對話管理、語音合成,提供一站式的解決方案。


威盛嵌入式事業部總經理吳億盼表示,語料庫的建立,是發展AI的前期基礎門檻。必須搞清楚定位在哪,想這個市場多大,建立語料、定位,再定義場景,最後收斂到應用端。



圖3 : 威盛投入人工智慧語音方案的布局。威盛嵌入式事業部總經理吳億盼(右)、郭宇帆。(攝影/王景新)
圖3 : 威盛投入人工智慧語音方案的布局。威盛嵌入式事業部總經理吳億盼(右)、郭宇帆。(攝影/王景新)

他指出,人類有70%的感官靠眼睛。但也必須結合聽覺,因此,機器視覺、智慧語音、人工自然語言等三者,彼此有不可或缺的緊密、連動關係,這裡頭的關鍵技術,是以繪圖晶片的演算法跟邏輯開發出來的。再以B2B的形式,落地到各個行業。


「技術的核心一樣,不同的排列組合,堆疊出客戶的需求。」吳億盼說。


「客戶對AI有電影般的想像。」威盛嵌入式-Smart Cities產品行銷郭宇帆分享。他認為,要先了解客戶的最終目的是什麼,梳理中間架構,協助畫清楚中間地圖,從預期收斂到現實,是推廣方面的最大挑戰。


他舉例,就醫院的應用場景來說,總有推床等聲音干擾,不見得適合完全以機器人為主,「這時候可以投過手機App來輔助,紀錄相關數據,讓產品更能落實。」即是於勞力密集的零售端,傳統人力仍然難被取代。


他指出,最大的限制是自然語意理解(NLP)的部分,人類語音有太多複雜的模型。機器人目前有其侷限範圍,一定範圍之外聽不懂,最後還是會找上真人。


這個痛點,威盛看到了。其OLAMI自然語言人機互動方案,就是覆蓋眾多垂直領域的語意通用場景,藉由海量知識庫,支持億萬量級詞典的複雜語意空間建模以及自定義語法解析,專利研發的深度語意解析技術以及OSL語法描述語言,讓開發者或企業可以根據自身需求快速構建各種應用,並降低開發成本。


「OLAMI是台灣最local的中文語音辨識服務。」郭宇帆介紹。


他解釋,OLAMI中文語音辨識(Speech-To-Text;STT)能提供中、英、台語混合辨識引擎企業級解決方案,針對不同產業領域,專業客制化語音辨識引擎。其中,在台語語音、以及聲音轉成文字都能做得非常精準,例如,一般語音辨識台語的「腳踏車」,中文顯示結果可能「卡的車」,並不精確;拜OLAMI台語語料庫、文法邏輯之賜,把特殊詞彙建進中文邏輯,混搭中、英、台語三種不同語言邏輯,精準呈現,拉開與同業的距離


由於其強大的辨識與學習能力,因此OLAMI的應用遠超出了智慧家庭的範疇,不僅在中國大陸智慧家庭應用頗有斬獲,也能因應電信、金融、零售以及企業內部等的商業級的應用。


今年第三季,信望愛基金會出導入威盛開發的AI語音辨識,開發的系統可辨識學生朗誦課文,依據流暢度、發音等評分,給出紅(掙扎)、黃(注意)、綠(流暢)三燈級分,也讓智慧語音技術進入了教育市場。


相關文章
顯微鏡解決方案助力台灣半導體研發技術力
十大雲端應用開發趨勢與預測
以深度學習和Spine Tool評估阿茲海默症治療標的
透過App機器學習加速藥物製造分析
燈塔工廠的關鍵技術與布局
comments powered by Disqus
相關討論
  相關新聞
» 數智創新大賽助力產學接軌 鼎新培育未來AI智客
» 巴斯夫與Fraunhofer研究所共慶 合作研發半導體產業創新方案10年
» 工研院IEK眺望2025:半導體受AI終端驅動產值達6兆元
» ASM攜手清大設計半導體製程模擬實驗 亮相國科會「科普環島列車」
» SEMI提4大方針增台灣再生能源競爭力 加強半導體永續硬實力


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.18.221.27.56
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw