帳號:
密碼:
CTIMES / 文章 /   
自行調適運算平台帶來高效能AI加速
真正變革時代的開端

【作者: Greg Martin】   2020年11月06日 星期五

瀏覽人次:【1710】
  

人工智慧(AI)已經開始改變我們生活的許多面向,創造了顯著的社會進步。從自動駕駛汽車到AI輔助醫療診斷,都顯示出我們正處於一個真正變革時代的開端。


然而,既然有了機會,挑戰也隨之而來。AI推論是基於訓練有素的機器學習演算法進行預測的過程,無論是部署在雲端、邊緣還是終端,都要求在嚴格的功率預算(power budget)下提供優異的處理效能。人們普遍認為,僅憑CPU難以滿足這項要求,而是需要某種形式的運算加速才能更有效地處理AI推論的工作負載。


與此同時,AI演算法正快速發展,且比傳統晶片的開發周期更迅速。如果使用ASIC等固定功能的晶片實現AI網路,則可能因先進AI模型的快速創新而很快就被淘汰。


整體應用加速

此外,還有第三個較鮮為人知的挑戰,這項挑戰來自於AI推論無法單獨部署。真正的AI部署通常需要在AI功能之前和之後進行非AI處理;例如,圖像可能需要完成解壓縮和縮放後才能符合AI模型的資料輸入要求。這些傳統的處理功能必須在與AI功能相同的吞吐量(throughput)下運行,並且又要實現高效能與低功耗。與AI推論實現方案一樣,非AI的前處理和後處理功能開始需要某種形式的加速。



圖一 : AI處理示意圖
圖一 : AI處理示意圖

僅加速AI是不夠的

要建構真實的應用,就需要高效地執行整體應用。在資料中心應用中,該應用可能擁有數千個至數百萬個並行執行個體(instance)。如果每個執行個體都能節省一定程度的功耗,總功耗將會有顯著下降。


只有當「整體應用」能夠透過加速滿足其效能目標,同時又能藉由提高效率滿足功耗要求時,這樣的解決方案才具備可行性。那麼,我們該如何透過可行的方式實現整體應用加速呢?


這裡有三個關鍵因素:建立自訂資料路徑的能力、使用單一元件執行方案、隨著最新AI模型的不斷發展和演進而充分發揮它的優勢。以下分別具體介紹這三個因素。


建立自訂資料路徑的能力

大部分的AI推論形式是在串流資料上運行。資料通常是動態的,例如影片的其中一部分、正在處理的醫療影像或是正在分析的網路流量。即使將資料儲存在磁碟上,也要從磁碟上讀取資料,並透過「AI應用」進行串流式傳輸。


自訂資料路徑為處理這類資料流提供了最有效的方法。自訂資料路徑讓應用擺脫了傳統的Von-Neuman CPU架構的限制。在這種架構中,資料以小批量從記憶體讀取出,經過處理再寫入回處理器。相反的,自訂資料路徑將資料從一個處理引擎傳遞給下一個處理引擎,不僅延遲時間短且效能適當。過低的處理效能無法滿足這種應用的需求,而過高的處理效能則會降低效率,因?閒置功能會浪費功耗或物理空間。自訂資料路徑提供絕佳的平衡,為應用提供量身定制的執行方案。


單一元件執行方案

有些解決方案非常適合AI推論,但不擅長整體應用處理,如GPU等固定架構元件普遍不適合這類用途。GPU往往能提供很高的TOP(Tera-operations per-second,一種常見的效能指標),但是AI推論效能通常需要與前處理效能和後處理效能匹配。如果非 AI 元件不能在同一個GPU上有效執行,就需要多元件解決方案。藉由要求在元件之間傳遞資料會浪費功耗,因此從功耗的角度來看其效率極低且成本高。因此,一個能夠有效執行整體應用的單一元件在實際AI推論部署中擁有顯著優勢。


靈活適應最新的 AI 模型並隨之演進

AI的創新速度令人歎為觀止。如今被視為先進的AI技術,很可能在半年後就被宣告過時。而使用較舊模型的應用可能會面臨喪失競爭力的風險,所以,能夠快速執行最新模型的能力極為關鍵。


那麼,什麼樣的技術既允許AI模型動態更新,又能提供建立自訂資料路徑的能力,從而在單一元件中加速AI和非AI處理呢?答案是:自行調適運算平台。


自行調適運算平台

自行調適運算平台基於能在製造後動態重配置的硬體上,這包括FPGA等經過長期檢驗的技術,以及賽靈思AI引擎等先進的創新。賽靈思Versal自行調適運算加速平台等單元件平台便於建立自訂資料路徑,加速AI處理和非AI處理功能。此外,因為硬體可以快速重新配置,所以它們也能迅速且有效地執行最新AI模型。自行調適運算元件提供了兩全其美的優勢,既具備自訂ASIC的效率優勢,而無需漫長且高成本的設計週期。



圖二 : 賽靈思Versal AI Core系列 VC1902
圖二 : 賽靈思Versal AI Core系列 VC1902

最優秀的AI應用執行方案未必是速度最快的。它需要的是在最高效率下,同時保持靈活性。它必須是量身定制且不多不少地提供所需的效能。


總結

隨著AI推論的應用日益普及,其挑戰不僅在於如何部署AI模型,也在於如何最有效地部署整體AI應用。在應用被複製數千次乃至數百萬次時,每個執行個體的少量節能也許能省下整個發電站所需的能源。如果將這種節能擴展到中不計其數開發中的新AI應用中,效果將非常顯著。毫無疑問,整體AI應用的有效加速應成為技術產業所有業者的目標,而自行調適運算平台則提供了極具競爭力的解決方案。


(本文作者Greg Martin為賽靈思策略行銷總監)


相關文章
FPGA從幕前走向幕後
在高速運動控制要求下 CPU與FPGA的分工合作
BCM將高壓電池轉化至SELV系統
讓筆記型電腦進入2020年代
Certus-NX 引領通用 FPGA 創新
comments powered by Disqus
相關討論
  相關新聞
» 凌群電腦多項研發成果 獲2021年台灣精品獎
» 瞄準產業新局超前部署 工研院發表2030技術策略與藍圖
» 長庚大學跨校技術交流 與北部12大工業區建構產學合作平台
» Xilinx攜手TI 開發高節能效率5G無線電解決方案
» Xilinx與三星推出運算儲存驅動器 處理效能提高至少10倍
  相關產品
» Xilinx推出多功能電信加速器卡 擴展5G O-RAN虛擬基頻單元市場
» 宸曜推出新款IGT-30系列工業等級物聯網閘道器
» 瑞薩與賽靈思合作開發Versal ACAP參考設計
» 全球最大!Xilinx推出擁有900萬個系統邏輯單元的FPGA
» Xilinx拓展Alveo產品系列 推出自行調適運算、網路與儲存加速器卡

AD


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2020 遠播資訊股份有限公司版權所有 Powered by O3
地址:台北市中山北路三段29號11樓 / 電話 (02)2585-5526 / E-Mail: webmaster@ctimes.com.tw