AMD全新CDNA架构HPC加速器提升近7倍FP16理论尖峰效能

AMD今日发表全新AMD Instinct MI100加速器。AMD表示，该加速器为全球最快高效能运算（HPC）GPU，同时也是首款突破10 teraflops (FP64)效能的x86伺服器GPU。

MI100加速器获得戴尔、技嘉、HPE、美超微（Supermicro）等大厂的新款加速运算平台支援，结合AMD EPYC CPU以及ROCm 4.0开放软体平台，旨在为即将到来的exascale等级时代推动全新发现。

AMD Instinct MI100 GPU采用全新AMD CDNA架构打造，搭配AMD第2代EPYC处理器，为高效能运算与AI开创出全新等级的加速系统。MI100在高效能运算方面提供高达11.5TFLOPS的FP64尖峰效能，在AI与机器学习工作负载方面则提供高达46.1TFLOPS的FP32 Matrix尖峰效能。

透过全新AMD Matrix Core技术，MI100在执行AI训练工作负载时能提供比AMD前一代加速器提升近7倍的FP16理论尖峰浮点运算效能。

AMD资料中心GPU与加速处理部门全球??总裁Brad McCredie表示，AMD推出AMD Instinct MI100，为全球最快的高效能运算GPU，代表着我们往exascale等级运算的目标迈进一大步。瞄准科学运算中最关键的工作负载，最新加速器搭配AMD ROCm开放软体平台，两强合并的组合为科学家与研究人员提供更为优越的高效能运算工作基础。

Exascale时代的开放软体平台

AMD ROCm开发者软体为exascale等级运算提供基础。ROCm作为一个由编译器、程式开发API与函式库组成的开源工具集，可帮助众多exascale等级软体开发者打造高效能应用程式。

经过优化的ROCm 4.0能为基於MI100的系统提供大规模运算的效能。ROCm 4.0已将编译器升级至支援开源并统一支援OpenMP 5.0与HIP。此外，PyTorch与Tensorflow框架都已针对ROCm 4.0进行优化，能配合MI100达到更高的效能。最新的ROCm 4.0方案为高效能运算、机器学习以及人工智慧程式开发者量身打造，将助开发高效能的可移植软体。

橡树岭国家实验室领导运算中心科学总监Bronson Messer表示，我们已率先使用MI100加速器，初步使用效果让人非常振奋。我们见证到大幅的效能提升，相比其他GPU高出达2到3倍。我们也同样意识到软体对效能影响的重要性。开源的ROCm开放软体平台以及HIP开发者工具能在各种平台上运行，这是我们自推出首款混合CPU/GPU系统以来最关切的特点。

AMD Instinct MI100加速器特色

．全新AMD CDNA架构：AMD CDNA架构提供卓越的效能与功耗效率，为AMD GPU提供exascale等级时代的效能，同时也是MI100加速器的核心。

．提供HPC工作负载FP64与FP32效能：提供领先业界的11.5TFLOPS尖峰FP64效能，以及23.1 TFLOPS的尖峰FP32效能，帮助全球各地科学家与研究人员加快在生命科学、能源、金融、学术、政府、国防等领域的新发现。

．全新Matrix Core技术：针对全范围单精度与混合精度矩阵运算提供大幅提升效能，其中包括FP32、FP16、bFloat16、Int8、以及Int4等，促进HPC与AI的融合。

．第2代AMD Infinity Fabric技术：Instinct MI100使用3个AMD Infinity Fabric Link时，可在PCIe 4.0上提供约2倍的P2P (peer-to-peer)尖峰I/O频宽，以及每张显示卡高达340 GB/s的总频宽。在伺服器中，MI100 GPU可配备两个完全连结的Quad GPU单元（hives），每个单元可为高速资料分享提供高达552GB/s的P2P I/O频宽。

．超高速HBM2记忆体：配备32GB高频宽HBM2记忆体以及1.2GHz的时脉频率，带来超高的1.23TB/s记忆体频宽，支援庞大资料集，协助消弭资料在记忆体存取时的传输瓶颈。

．支援最新PCIe Gen 4.0技术：配合最新版PCIe Gen 4.0技术进行开发，在CPU与GPU之间提供高达64GB/s尖峰理论传输资料频宽。

各大OEM与ODM合作夥伴厂商预计将於今年底问市的新系统中搭载AMD Instinct MI100加速器，其中包括戴尔、技嘉、HPE、美超微（Supermicro）。