人工智慧(AI)擁有超越上個世紀所有顛覆性創新的潛力,在醫療保健、生產力、教育等許多領域為社會帶來的助益,將超乎我們的想像。為了讓這些複雜的AI工作負載得以運作,全球資料中心所需的運算量也將急速成長。然而,這永無止盡的運算需求反映了一大挑戰:資料中心需要無比龐大的電力,才能推動這項突破性技術。
當前資料中心的用電量已經十分驚人:全球每年需要460太瓦/時(TWh)的電力,相當於德國全國的用電量。預計在2030年前,AI的崛起將讓這個數值成長3倍,超過印度這個全球人口最多國家的總用電量。
未來的AI模型將持續擴大且更加聰明,進而刺激對更多運算的需求,對電力的需求也將隨之增加,形成互相推升的循環。如何找到降低大型資料中心用電量的方法,對於如何突破社會發展與實踐AI承諾來說相當關鍵。
換句話說,沒有電力就沒有AI。
企業必須重新審視全局以因應能源效率問題。
重新構想AI未來:由Arm驅動的未來
追求能源效率是Arm的DNA。Arm最早推出的產品即是運用電池供電,並啟動了手機革命。這讓業界重新思考如何打造晶片,以滿足對AI日益成長的需求。
在一個傳統的伺服器機櫃中,光是運算晶片就可消耗超過50%的電力預算。工程師們正在設法減少這個數值,每一瓦電力都很重要。
在探尋解方的過程中,全球最大的AI超大規模運算業者紛紛改採Arm解決方案來降低用電量,這並不令人意外。相較於市場上的其他方案,Arm最新的Neoverse CPU是效能最高、能源效率最佳的雲端資料中心處理器。Neoverse提供超大規模運算業者客製化晶片的彈性,將要求嚴苛的工作負載最佳化,同時提供先進的效能和能源效率,省下的每一度電都可以投入更多的運算。這就是現在Amazon、Microsoft、Google 和Oracle都採用Arm Neoverse技術,來處理通用型運算,與進行基於 CPU 的 AI 推論和訓練的原因。Arm Neoverse正成為各雲端資料中心的實質標準。
請參考近期發表訊息中的數據:
‧ AWS基於Arm架構的Graviton:相較於市場競品,Amazon Sagemaker的AI推論效能高出25%,Web應用程式效能高出0%,資料庫效能高出40%,能源效率則提升60%。
‧ Google Cloud基於Arm架構的Axion:支援基於CPU的AI推論和訓練、YouTube、Google Earth等服務,相較於競品的傳統式架構,效能高出50%,能源效率提升60%。
‧ Microsoft Azure基於Arm架構的Cobalt:效能比市場競品高出40%,支援 Microsoft Teams等服務,並與Maia加速晶片結合,推動Azure的端對端AI架構。
‧ Oracle Cloud基於Arm架構的Ampere Altra Max:相較於傳統的競爭者,每機櫃伺服器的效能高出2.5倍,用電量降低2.8倍,並已用於生成式AI推論模型:LLM 訓練的資料彙整、標記,以及批次推論使用場景。
顯然Arm Neoverse已大幅提高雲端通用型運算的效能和能源效率。然而,客戶現在發現加速運算也能帶來同樣的效益。大規模AI訓練需要獨特的加速運算架構,例如 NVIDIA Grace Blackwell平台(GB200),它將NVIDIA的Blackwell GPU架構與基於Arm 架構的Grace CPU相結合。相較於使用同級LLM架構的NVIDIA H100 GPU,基於Arm 的運算架構可實現系統級設計的最佳化,將用電量降低25倍,並將每個GPU的效能提高達30倍。這些最佳化能夠帶來顛覆性的效能和節能效果,歸功於 Arm Neoverse 能實現前所未有的客製化晶片的彈性。
隨著Arm部署規模的擴大,這些企業在資料中心總用電量可望節省高達15%。省下的龐大電量,將可用於在相同的功耗範圍內提升AI能力,而無需增加用電。具體來看,這些省下的電力可以用來執行20億次ChatGPT查詢,支持四分之一的日常網路搜尋流量,照亮 20% 的美國家庭,或者為類似哥斯大黎加面積相仿的國家提供電力。
這對能源消耗和環境永續產生了驚人的影響。
從基礎面來看,Arm CPU正在驅動AI革命,同時造福地球。
AI運算的未來建構於Arm之上。
(本文作者Rene Haas為Arm執行長)
*刊頭圖(source : Arm)