原本的自动电话语音和已经发展数十年的 GPS 导航系统都只能发出生硬的机器合成声音,而人工智慧 (AI) 却让智慧型手机和智慧音箱中的虚拟助理呈现逼真的语调。不过,AI 合成的声音和我们在日常对话及媒体中听到的真实人声之间,还是差了那么一点,原因在于人们说话时带有复杂的节奏、音调和音色,这是很难以 AI 仿真出来的。
|
开发人员与创作者可运用最先进的表达性语言合成对话式人工智慧模型 |
然而这个差距正在迅速缩小。 NVIDIA 的研究人员正在打造高品质、可控制的语音合成模型与工具,它们能捕捉人类口说声音中的丰富细节,又不会听起来人工感很重。研究人员也于 INTERSPEECH 2021 大会展示这项最新的研究成果。
这些模型有助银行和零售商的自动语音客服,也能让电玩游戏或书籍中的人物更为生动,并即时为数位分身加上合成语音。 NVIDIA 内部的创意团队甚至运用这项技术,为一支介绍 AI 的系列影片制作出富有表现力的旁白内容。
表达性语言合成只是 NVIDIA Research 团队在对话式 AI 的其中一项研究,这个领域还包括自然语言处理、自动语音辨识、关键字侦测、音讯增强等。这项先进研究成果的部分内容已透过 NVIDIA NeMo 工具套件成为开放原始码,可以在 NGC 容器及其它软体中心取得,并经最佳化调整,能在 NVIDIA GPU 上高效执行。