帳號:
密碼:
CTIMES/SmartAuto / 產品 /   
以DeepMind WaveNet為基礎 Google推出Cloud Text-to-Speech服務
 

【CTIMES/SmartAuto 報導】   2018年04月02日 星期一

瀏覽人次:【5171】
  

許多Google產品(像是Google Assistant、Google搜尋、Google地圖等)都內建了高品質的Text-to-Speech服務,可以產生如人聲般自然的發音。我們收到許多開發者的意見,表示希望能將Text-to-Speech的服務結合到他們的應用程式中,所以Google特別將這項Cloud Text-to-Speech技術加入Google雲端平台(Google Cloud Platform, GCP)中。

全新且升級的 WaveNet 模型所生成的原始音頻波形比原本的模型快了 1,000 倍,而且只需 50毫秒即可生成一秒鐘的語音訊息。
全新且升級的 WaveNet 模型所生成的原始音頻波形比原本的模型快了 1,000 倍,而且只需 50毫秒即可生成一秒鐘的語音訊息。

使用者可以將Cloud Text-to-Speech服務運用在不同的情境中,如為電話語音服務(Interactive Voice Response, IVR)中心提供語音回應系統,並啟用即時自然語言對話功能,另外,此服務可與物聯網設備,如電視、汽車、機器人等進行對話。將文字格式的媒體內容(如新聞文章、書籍)轉為口語形式(如Podcast、有聲書)。

Cloud Text-to-Speech服務提供了12種不同語言中的32種不同聲音供使用者選擇。即使是複雜的文字內容,例如姓名、日期、時間、地址等,Cloud Text-to-Speech服務也可以立刻發出準確且道地的發音,並支援多種音檔格式,包含MP3和WAV等,不僅如此,使用者還可以自己調整音調、語速和音量。

Cloud Text-to-Speech服務更以DeepMind所建構的原始音檔生成模型WaveNet為基礎,透過運用WaveNet將一系列高保真度的聲音轉化為語音。整體而言,WaveNet可以合成並產出更自然的語音細節,而且相較於其他Text-to-Speech技術所產生的語音內容,WaveNet所產出的語音內容也更受使用者喜愛。

在2016年底,DeepMind推出了第一版的WaveNet,透過神經網路架構來訓練大量的語音樣本並創造原始音頻的波形。在訓練過程中,神經網路會擷取語音的基本架構,像是語調的連接和語音波形的形狀等。當輸入特定的文字內容時,經過訓練的WaveNet模型會產生相對應的語音波形,藉由一次產生一個樣本的方式,達到比其他方法更高的準確度。

現在,我們使用的運行於Google雲端TPU基礎架構上的更新版WaveNet。全新且升級的WaveNet模型所生成的原始音頻波形比原本的模型快了1,000倍,而且只需50毫秒即可生成一秒鐘的語音訊息。事實上,這個新模型不僅更快速而且具有高保真度,且每秒能創造出24,000個音頻波形的樣本。為了製作出更好、更擬真的音質,我們也將每個樣本的解析度從8位元提高到16位元。

如圖所示,新的WaveNet模型可以製作出更自然的語音訊息。在測試過程中,使用者在1到5級的平均意見分數(Mean-opinion-score, MOS)量表中,給予新版美式英文WaveNet語音4.1的高分,其中有超過20%的人認為比標準的人聲更好,而超過70%的人肯定它能降低人類語言的隔閡。由於WaveNet音訊僅需較少錄製音頻,就能製作出高音質模型,因此我們預計在未來幾個月內,將持續改善WaveNet音訊的多樣性與品質,並提供給雲端客戶使用。

Cloud Text-to-Speech已經協助很多我們的客戶,像是思科(Cisco)和Dolphin ONE,提供更好的終端使用者體驗。

「身為提供協作解決方案的領導者,思科長久以來致力於為企業提供最新的技術。Google的Cloud Text-to-Speech服務協助我們提供給客戶他們所期待的自然人聲。」-思科認知協作技術長 Tim Tuttle

Dolphin ONE Jason Berryman指出:「Calll by Dolphin ONE的電信平台在幾乎全球各地都能提供使用者多重設備的連接服務。我們將Cloud Text-to-Speech工具與我們的產品結合,為顧客能體驗到最自然的語音客服。透過使用Google Cloud的機器學習工具,我們能即時將最新科技提供給我們的使用者。」

關鍵字: DeepMind  Google(谷歌
相關產品
英飛凌雷達技術助力Google Pixel 4實現手勢控制功能
經濟部偕微軟與Google 培育高中職生AI職能
Microchip雲端物聯網核心開發板幾分鐘內將PIC MCU應用連接到Google Cloud
Fortinet安全織網支援Google雲端平台 提供混合雲環境安全防護
Google帳戶讓使用者獲得更高的透明度、更易掌控
相關討論
  相關新品
CWFD301&CWFD401: WiDi
原廠/品牌:鉅景
供應商:鉅景
產品類別:RF
2DoF IMU EV_Board
原廠/品牌:SD
供應商:敦吉科技
產品類別:Sensor
Blackfin Development Tools Bundle
原廠/品牌:ADI
供應商:安馳科技
產品類別:DSP
  相關新聞
» 健康福祉產業推動新浪潮 創新應用服務輔導有成
» Infor 在廣州舉辦2019製造業數位化創新高峰論壇
» 仁大資訊Booster5讓小店家也能做在地行銷
» 產學合作創益加乘 群聚力打造科技生態鏈
» 2019全球百大科技研發獎 台科技專案奪五大獎
  相關文章
» 符合性評估:成功推出C-V2X之安全路徑
» 預認證互聯簡化IoT應用
» 區塊鏈技術正邁向產業級應用
» 以區塊鏈實現分散型社會與應用
» 2100萬枚比特幣之外的區塊鏈契機

AD

刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2019 遠播資訊股份有限公司版權所有 Powered by O3
地址:台北市中山北路三段29號11樓 / 電話 (02)2585-5526 / E-Mail: webmaster@ctimes.com.tw