由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊宣佈,研發的機器翻譯系統在通用新聞報導測試集 newstest2017 的中翻英測試集,達到可與人工翻譯媲美的水準。這是第一個在新聞報導的翻譯品質和準確率上可以比肩人工翻譯的翻譯系統。
|
/news/2018/03/16/1331239470S.jpg |
newstest2017 新聞報導測試集由產業界和學術界的合作夥伴共同開發,並於去年秋天在 WMT17 大會發表。為了確保翻譯結果準確且達到人類的翻譯水準,微軟研究團隊邀請了雙語語言顧問將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估。
機器翻譯是科研人員攻堅了數十年的研究領域,曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水準。雖然此次突破意義非凡,但研究人員也提醒大家,這並不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。
當一種語言對(比如中─英)擁有較多的訓練資料,且測試集中包含的是常見的大眾類新聞詞彙時,那麼在人工智慧技術的加持下機器翻譯系統的表現可以與人類媲美。
跨時區跨領域合作,四大技術為創新加持
雖然學術界和產業界的科研人員致力於機器翻譯研究很多年,但近兩年深度神經網路的使用讓機器翻譯的表現取得了很多實質性突破,翻譯結果相較於以往的統計機器翻譯結果更加自然流暢。為了能夠取得中─英翻譯的里程碑式突破,來自微軟亞洲研究院和雷德蒙研究院的三個研究組,進行了跨越中美時區、跨越研究領域的聯合創新。
其中,微軟亞洲研究院機器學習組將他們的最新研究成果──對偶學習(Dual Learning)和推敲網路(Deliberation Networks)應用在此次取得突破的機器翻譯系統。對偶學習利用的是人工智慧任務的天然對稱性。當我們將其應用在機器翻譯時,效果就好像是通過自動校對來進行學習──當我們把訓練集中的一個中文句子翻譯成英文之後,系統會將相應的英文結果再翻譯回中文,並與原始的中文句子進行比對,進而從這個比對結果中學習有用的回饋資訊,對機器翻譯模型進行修正。
而推敲網路則類似於人們寫文章時不斷推敲、修改的過程。透過多輪翻譯,不斷地檢查、改善翻譯結果,從而使翻譯的品質大幅提升。對偶學習和推敲網路的工作發表在 NIPS、ICML、AAAI、IJCAI 等人工智慧的全球頂級會議,並且已被其他學者推廣到機器翻譯以外的研究領域。
自然語言計算組基於之前的研究積累,在此次的系統模型中增加了另外兩項新技術:聯合訓練(Joint Training)和一致性規範(Agreement Regularization),以提高翻譯的準確性。聯合訓練可以理解為用反覆運算的方式去改進翻譯系統,用中英翻譯的句子對去補充反向翻譯系統的訓練資料集,同樣的過程也可以反向進行。一致性規範則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。
可以說,兩個研究組分別將各自所在領域的累積與最新發現應用在此次的機器翻譯系統中,從不同角度切入,讓翻譯品質大幅提升。在專案合作過程中,他們每週都會與雷德蒙總部的團隊開會討論,確保技術可以無縫融合,系統可以快速反覆運算。
newstest2017 新聞報導測試集包括約 2 千個句子,由專業人員從線上報紙樣本翻譯而來。微軟團隊對測試集進行了多輪評估,每次評估會隨機挑選數百個句子翻譯。為了驗證微軟的機器翻譯是否與人類的翻譯同樣出色,微軟沒有停留在測試集本身的要求,而是從外部聘請了一群雙語語言顧問,將微軟的翻譯結果與人工翻譯比較。
驗證過程之複雜也從另一個側面展現了機器翻譯要做到準確所面臨的複雜性。對於語音辨識等其它人工智慧任務來說,判斷系統的表現是否可與人類媲美相當簡單,因為理想結果對人和機器來說完全相同,研究人員也將這種任務稱為模式識別任務。
然而,機器翻譯卻是另一種類型的人工智慧任務,即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯,而且兩個人的翻譯都不是錯的。那是因為表達同一個句子的「正確的」方法不止一種。
一方面,由於存在特殊的對偶結構,兩個任務可以互相提供回饋資訊,而這些回饋資訊可以用來訓練深度學習模型。也就是說,即便沒有人為標注的資料,有了對偶結構也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環境,這樣就不必與真實的環境做交互,兩個對偶任務之間的交互就可以產生有效的回饋信號。因此,充分地利用對偶結構,就有望解決深度學習和增強學習的瓶頸──訓練資料從哪裡來、與環境的交互怎麼持續進行等問題。
參考:科技新報
圖:CNET