AMD全新CDNA架構HPC加速器提升近7倍FP16理論尖峰效能

AMD發表全新AMD Instinct MI100加速器。AMD表示，該加速器為全球最快高效能運算（HPC）GPU，同時也是首款突破10 teraflops (FP64)效能的x86伺服器GPU。

MI100加速器獲得戴爾、技嘉、HPE、美超微（Supermicro）等大廠的新款加速運算平台支援，結合AMD EPYC CPU以及ROCm 4.0開放軟體平台，旨在為即將到來的exascale等級時代推動全新發現。

AMD Instinct MI100 GPU採用全新AMD CDNA架構打造，搭配AMD第2代EPYC處理器，為高效能運算與AI開創出全新等級的加速系統。MI100在高效能運算方面提供高達11.5TFLOPS的FP64尖峰效能，在AI與機器學習工作負載方面則提供高達46.1TFLOPS的FP32 Matrix尖峰效能。

透過全新AMD Matrix Core技術，MI100在執行AI訓練工作負載時能提供比AMD前一代加速器提升近7倍的FP16理論尖峰浮點運算效能。

AMD資料中心GPU與加速處理部門全球副總裁Brad McCredie表示，AMD推出AMD Instinct MI100，為全球最快的高效能運算GPU，代表著我們往exascale等級運算的目標邁進一大步。瞄準科學運算中最關鍵的工作負載，最新加速器搭配AMD ROCm開放軟體平台，兩強合併的組合為科學家與研究人員提供更為優越的高效能運算工作基礎。

Exascale時代的開放軟體平台

AMD ROCm開發者軟體為exascale等級運算提供基礎。ROCm作為一個由編譯器、程式開發API與函式庫組成的開源工具集，可幫助眾多exascale等級軟體開發者打造高效能應用程式。

經過優化的ROCm 4.0能為基於MI100的系統提供大規模運算的效能。ROCm 4.0已將編譯器升級至支援開源並統一支援OpenMP 5.0與HIP。此外，PyTorch與Tensorflow框架都已針對ROCm 4.0進行優化，能配合MI100達到更高的效能。最新的ROCm 4.0方案為高效能運算、機器學習以及人工智慧程式開發者量身打造，將助開發高效能的可移植軟體。

橡樹嶺國家實驗室領導運算中心科學總監Bronson Messer表示，我們已率先使用MI100加速器，初步使用效果讓人非常振奮。我們見證到大幅的效能提升，相比其他GPU高出達2到3倍。我們也同樣意識到軟體對效能影響的重要性。開源的ROCm開放軟體平台以及HIP開發者工具能在各種平台上運行，這是我們自推出首款混合CPU/GPU系統以來最關切的特點。

AMD Instinct MI100加速器特色

．全新AMD CDNA架構：AMD CDNA架構提供卓越的效能與功耗效率，為AMD GPU提供exascale等級時代的效能，同時也是MI100加速器的核心。

．提供HPC工作負載FP64與FP32效能：提供領先業界的11.5TFLOPS尖峰FP64效能，以及23.1 TFLOPS的尖峰FP32效能，幫助全球各地科學家與研究人員加快在生命科學、能源、金融、學術、政府、國防等領域的新發現。

．全新Matrix Core技術：針對全範圍單精度與混合精度矩陣運算提供大幅提升效能，其中包括FP32、FP16、bFloat16、Int8、以及Int4等，促進HPC與AI的融合。

．第2代AMD Infinity Fabric技術：Instinct MI100使用3個AMD Infinity Fabric Link時，可在PCIe 4.0上提供約2倍的P2P (peer-to-peer)尖峰I/O頻寬，以及每張顯示卡高達340 GB/s的總頻寬。在伺服器中，MI100 GPU可配備兩個完全連結的Quad GPU單元（hives），每個單元可為高速資料分享提供高達552GB/s的P2P I/O頻寬。

．超高速HBM2記憶體：配備32GB高頻寬HBM2記憶體以及1.2GHz的時脈頻率，帶來超高的1.23TB/s記憶體頻寬，支援龐大資料集，協助消弭資料在記憶體存取時的傳輸瓶頸。

．支援最新PCIe Gen 4.0技術：配合最新版PCIe Gen 4.0技術進行開發，在CPU與GPU之間提供高達64GB/s尖峰理論傳輸資料頻寬。

各大OEM與ODM合作夥伴廠商預計將於今年底問市的新系統中搭載AMD Instinct MI100加速器，其中包括戴爾、技嘉、HPE、美超微（Supermicro）。