CTIMES/SmartAuto - AMD：AI架构将导向边缘和云端逐步走向统一与可扩展:CPU,HPC,GPU,DPU,MPU,AMD

人工智慧和机器学习（AI/ML）产业被划分为各种不同领域，这些领域中具代表性的两种划分为训练与推论，以及云端和边缘。尽管有其他大量的AI/ML任务差异，本文主要探讨这两种划分。AI/ML训练开发出供推论使用的模型，用於识别任何需要辨识的物件。这些物件可以是智慧城市街道上顺畅或拥挤的交通、用於实现安全存取控制的身份证件和人脸比对的许可级别、向客服中心拨打电话的对话内容，抑或是邮政分发中心中信封上的手写地址。

AMD资深??总裁Ivo Bolsens指出，训练通常在企业资料中心或云端进行，这些环境中有众多高效能伺服器、充裕的记忆体、硬体加速器和高速网路可以投入工作负载。在这种环境下，需快速完成工作的训练使用大量供给运算、网路连结和冷却的电力。尽管推论工作负载也能在资料中心或云端执行，但由於多种原因，越来越多推论任务正迁移至边缘。

首先是延迟问题。将原始资料发送到云端或资料中心耗用时间，因此需要更长的时间来执行推论，而且将想要的答案或决策发送至边缘的时间也会增加。以工厂自动化、雷达、电子作战等即时任务来说，费时过长的决策会导致高昂成本。

将推论工作负载迁移到边缘还有另外两个原因：运算力和电力。随着AI/ML推论工作负载迁移到大量的边缘装置，这些边缘装置中的数百万个推论引擎总运算力将超越资料中心伺服器的运算力。另外，边缘推论引擎并不会消耗大量电力。

为解决边缘推论的独特需求，采用全新运算架构的晶片将於近期问世。制造商强调，他们的元件能以更低的功耗达到颇高的TFLOPS和TOPS运算次数。尽管推论工作负载需要充裕的TFLOPS和TOPS是不争的事实，但这些专用边缘推论晶片基於单向架构理念，一旦考虑互相结合训练与推论工作负载，即有可能证明这种架构不堪使用。

当前，AI/ML模型训练工作负载主要在资料中心内的高功耗CPU和GPU上执行，它们在此消耗大量电力，同时利用先进的冷却技术来执行训练AI/ML模型所需的数万亿次运算。这种训练几??普遍采用具备高动态范围的浮点资讯格式，透过允许对模型权重进行微小的增量调整来实现最高模型精度。浮点运算耗电更多，因而需要额外的冷却。此外，CPU和GPU在记忆体和其内部运算单元之间迁移大型训练资料集时也会消耗大量电力。

如果要使用全精度浮点资讯格式完成全部运算，大多数边缘推论晶片难以负担如此的矽或功耗。很多公司为了获得高峰值TFLOPS和TOPS指标而做出妥协，通常的做法是以精度略低的资料类型代表AI/ML权重、启动和资料。边缘AI/ML晶片的厂商会提供相关软体工具，以降低受训模型权重的精度，从而将模型转换为较小数值格式，例如FP8、缩放整数，或者甚至是二进位资料格式。这些较小的资料格式可为推论工作负载带来优势，但也会损失一定程度的模型精度。用降低的精度重新训练AI/ML模型通常可以恢复些许精度。

试想有一种可扩展的装置架构，既可以部署在小型嵌入式边缘装置中，也可以部署在能够聚集资料中心内执行的工作负载的大型装置中。这些最隹化措施除帮助改善边缘功耗和成本效率，也能令资料中心的运算更密集、更具成本效益，以便降低用於推论和训练的设备资本与营运支出。

而支援全精度浮点格式和降精度浮点格式的AI/ML加速器可扩展架构，打破训练与推论之间的人工界线，为统一架构部署相同标准和熟悉的软体工具。这类高效率的边缘AI加速器采用资料流程和晶片广播网路等架构创新，允许从外部记忆体获取的资料传输到晶片後多次重复使用。

在一些实际的应用案例中，导向机器学习的统一可扩展资料流程架构，打破训练与推论不同阶段之间的壁垒。以联邦学习（Federated Learning）为例，它解锁全新类型的AI/ML工作负载。对於众多连结应用而言，联邦学习可以取代透过一次性离线训练推导出的降精度AI/ML推论模型单向方法，并获得由於欠缺代表的集中式离线训练集而难以实现的效能。

联邦学习利用边缘推论的重要特色，即装置带来远超於原始模型训练集，在众多范围暴露的不同输入（inputs）。如设计得当，边缘装置能从额外输入中学习，并在装置部署过程中进一步提升其模型精度。可能会有数百、数千乃至数百万个边缘装置共同改善相同的AI/ML模型，以提供更优质的本地回覆或决策。

以同一家厂商制造并遍布在世界各地医院中的CT或MRI扫描器为例。这些影像装置的任务通常是发现癌症肿瘤或其他疾病，并且能愈加采用AI/ML模型帮助放射科医生辨别可疑组织。随着每台现场装置不断改进其模型，如果利用联邦学习更新及改进原始模型，可让用於打造新影像装置的原始训练模型受益於相同的改良。

进行更新时，应确保只共用来自新增边缘训练的洞察，而非个人隐私资料，以利所有现场装置都能在不侵犯隐私的情况下从这种额外训练中获益。联邦学习在隐私保护装置个人化方面具有广泛适用性，因其可以针对特定使用者客制化视觉演算法和语音演算法效能。此外，也有网路安全应用，透过网路入囗节点的协作学习即可发现主动安全规则，而无需共用敏感的专用网路流量。

AMD资深??总裁Ivo Bolsens认为，统一的云端和边缘运算架构优势在於利用相同的软体二进位，就能将模型依逻辑划分为执行於云端和边缘。统一架构可确保使用相容的资料格式，以及确保优化资料格式如稀疏性表示（sparsity representations）不会在云端和边缘之间中断。可扩展的统一架构与贯穿於所部署应用生命周期的持续学习，与现时的常规训练与推论做法不同，因为後者依赖资料中心的CPU和GPU与边缘专用装置。然而，随着AI/ML逐步普及，如果业界希??大幅提升效能、精度和能源效率，这种统一方式应为最合??逻辑的途径。