隨著亞馬遜、谷歌和蘋果等公司相繼推出具有革命性意義的智慧揚聲器,嵌入式語音控制的設備已經成為當下的熱門趨勢,而這種技術其實已經存在了很多年。通過這些智慧揚聲器,使得終端使用者第一次體驗到語音優先設備的便捷性、實用性和直觀性。
語音是這些設備的使用者介面(UI),也是它們最重要或唯一的對話模式。借助雲端的自然語言理解技術,智慧揚聲器可以讓語音優先設備的終端使用者用自然語言與智慧設備進行溝通,無論是請求、查詢還是命令,都可以得到理解和回應。
為了實現自然語言處理,設計人員和終端使用者需要面對一些挑戰,比如要求有穩定、可靠的網路連接,以及要承受始終線上、始終聆聽的設備的高耗電,更別提這種聯網設備可能帶來的隱私風險了。
圖一 : 為了實現自然語言處理,設計人員必須解決嵌入式設計中的語音引擎難題。 |
|
本地語音控制與基於雲端的語音控制比較
為了讓設備具備語音控制功能,工程師通常有三種選擇:本地處理、在雲端處理或混合處理(亦即為前兩項組合)。通過本地語音控制,終端設備在邊緣本地處理所有語音,而無需連接到雲端或遠端伺服器進行二次處理。
基於雲端的處理,就是利用雲端的計算能力來處理語音音訊,然後把雲端生成的回應通過網路傳回設備。在混合處理的情況下,通常會使用本地喚醒詞引擎來喚醒設備(如「Hey NXP」),然後將該喚醒詞之後的所有語音命令資料流到雲端或遠端伺服器進行處理。
本地處理具有低延遲、低功耗和獨立於網路等優點,但它通常只支援需要精確措辭的基本關鍵字和命令。例如開燈可能需要準確的短語「Hey,NXP(喚醒詞),開燈(語音命令)」,並且不能有任何變化。
對於雲端處理和混合系統,雲端服務的使用增加了延遲,但提供了能夠運行極其複雜的演算法的優勢,包括自然語言理解模型。重溫剛才說的開燈場景,使用任何詞語組合,系統都可以理解所要求操作的環境,例如“這裡很黑,請開燈”。
如前所述,基於雲端的自然語言處理的一個主要缺點是安全和隱私問題。簡單地說,這種方式的原理是把語音音訊通過網路傳送到遠端伺服器進行處理,但是這也可能導致系統誤啟動並把無關的音訊傳輸到雲端。這些音訊流可能包括個人對話、憑證或其他敏感資訊。
VIT Speech to Intent引擎介紹
針對嵌入式設計中的語音引擎難題,恩智浦推出了其智慧語音技術(VIT)產品組合的最新產品VIT Speech to Intent引擎。S2I引擎是VIT產品組合的高端產品,其中還包括免費的喚醒詞引擎(WWE)和語音命令引擎(VCE)。
與依賴遠端雲端服務的系統不同,VIT S2I能夠在本地確定自然語言的意圖。這一功能要歸功於恩智浦針對嵌入式系統設計的神經網路演算法和機器學習模型的最新開發成果。因此,要實現「開燈」的目的,可以用很多不同的方式來表達,比如「開燈」、「太暗了」和「你能讓光線更亮嗎」等。
這種Speech to Intent功能使用戶能夠更自然地與嵌入式系統進行溝通,同時降低了系統延遲和雲端連接系統的功耗。此外,消除雲端服務也有助於提高安全性和隱私,因為所有語音都在設備上本地處理。此外,如果搭配恩智浦喚醒詞引擎,可以開發超低功耗設計,只有在聽到特定的喚醒詞後,才會啟動VIT S2I引擎來處理語音命令。
支持VIT S2I的恩智浦產品包括:ArmRCortexR-M:i.MX RT跨界MCU和RW61x MCU,以及Cortex A i.MX 8M Mini、i.MX 8MPlus和i.MX 9x應用處理器。VIT S2I目前支持英語、中文和韓語,將於2023年底推出。用於創建自訂命令和訓練模型的線上開發工具計畫於2024年發佈。
圖二 : VIT Speech to Intent架構 |
|
為下一個設計增加語音功能
物聯網領域日新月異,VIT S2I能夠適應各種應用場景,無論是家居自動化、可穿戴電子產品,還是汽車遠端資訊處理和樓宇門禁等,都能發揮其優勢。消費者喜歡用自然語言來免手動控制設備的基本功能,消除邊緣語音處理的雲服務,不僅減少了系統延遲,還減少了隱私和安全問題。
對於那些需要使用語音優先使用者介面的設備,VIT S2I系統是一個不可或缺的部分,它可以應用在智慧恆溫器、智慧電器、家居自動化、燈光控制、遮陽控制等領域,VIT S2I也適用於可穿戴設備和健身設備,以及包括設置提醒、控制藍牙設備和監測健康狀況等一些例示。
使用VIT產品組合增強應用
如果想要使用恩智浦智慧語音技術組合進行開發,可使用VIT喚醒詞和語音命令引擎,通過MCUXpresso SDK和線上模型工具即可獲得。這些引擎可以方便地定制喚醒詞和基本的語音控制,適用於那些不涉及自然語言理解的快速原型製作和開發週期。
(本文作者Chris Welsh為恩智浦邊緣處理業務部物聯網語音和音訊業務發展總監)