资料中心系统连接解决方案供应商Astera Labs产品管理协理Ahmad Danesh,日前特别接受CTIMES的专访,畅谈该公司最新推出的Scorpio 智慧型交换器晶片系列。这款产品主要作为人工智慧(AI) 基础架构的效能和扩展能力的晶片系列,包含Scorpio P系列和X系列两款晶片,均采用软体定义架构,可实现更高的灵活性和客制化设计。
Ahmad Danesh表示,Astera Labs的产品均以软体定义的架构为基础进行开发。这种架构使其能够以一套硬体,如晶片、模组等,并开发可在其上执行的嵌入式软体,从而实现更快的互通性,并且在许多情况下,可以解决合作夥伴硬体中的问题,使生态系统更快地发展。
关於Fabric Switch Scorpio P系列和X系列
而针对此次新发表的Fabric Switch交换器晶片系列,Ahmad Danesh指出,Scorpio P系列是业界首款PCIe 6交换器晶片,用於在将GPU连接到其他的运算资源,例如CPU、NIC网路卡和储存设备(SSD)。由於每个 GPU 通常都需要 PCIe 介面才能进行连接,因此该晶片可提供必要的互通性;至於Scorpio X系列,则适用於後端GPU的扩展(scale-up),它能以机架等级(Rack-level)连接同质的GPU,让用户迅速扩展後端算力。
Ahmad Danesh解释说,AI市场的模型正变得越来越复杂,并且具有非常不受限制的工作负载。一开始只是文字的ChatGPT,接着变成了图像,现在正转往影片发展,并且正在变成非常不同的即时推断以及推理,或者试图根据资料得出结论。因此,从资料和AI平台的角度来看,它需要这些不同的分散式架构、不同的客制化架构,并且非常注重横向扩展,以便能够建立越来越大的GPU拓扑以及纵向扩展架构,以便能够建立可处理此资料的GPU丛集。
而Scorpio交换器晶片就是为了应对当前AI应用的挑战所设计,以满足日益成长的规模扩展和规模提升需求。透过Scorpio交换器,客户可以建立更大的 GPU 拓扑,以处理不断增加的资料量和模型复杂性。
Astera Labs预计,到2028年,Scorpio P系列和X系列的潜在市场规模将达到 50 亿美元。目前也已向主要的AI平台供应商供货。Ahmad他本人便在台北拜会ODM 业者,而他们都在积极开发用於超大规模资料中心的硬体。
除了Scorpio晶片外,Astera Labs还宣布推出Cosmos软体方案,该方案能为整个AI基础架构提供了远端管理、诊断和效能监测等资讯。Cosmos可使客户能够监控其所有设备、网路连线和汇流排通道(lane),以确保它们能够最大程度的优化GPU利用率和资料正常执行时间。
Ahmad Danesh表示,Cosmos软体方案与Astera Labs的硬体一起提供,是整体系统工作的重要基石,它能为整个资料中心提供更隹的可视性。尽管没有直接支援他厂的元件,但也能透过撷取整体系统的资讯,以监控个别单元与系统运行情况。
UALink联盟的成立
另外一个亮点,则是「UALink」联盟的发布。Ahmad Danesh表示,Astera Labs 是UALink联盟的成员之一,该联盟是一个由产业领导者组成的团体,包含、AWS、AMD、Google、Intel、Meta等,目标是为规模提升架构开发一个开放式的产业标准,目前Astera Labs也正在开发支援UALink 协定的产品。
关於PCIe Gen5和Gen 6的市场进展
而谈到PCIe Gen5和Gen 6的市场进展,Ahmad Danesh认为,PCIe Gen5的使用寿命会很长,在生态系统中还会持续存在相当一段时间。但PCIe Gen6的转换速度也会很快,特别是GPU 和加速器等将会很快转向PCIe Gen6,接着是NIC,然後是 CPU,最後才是 SSD。SSD可能会在Gen5停留很长一段时间。
不过他指出,即使只有GPU升级到PCIe Gen6,其他设备维持PCIe Gen5仍然可以运作。例如,一个PCIe Gen6的GPU可以透过PCIe Gen5的NIC连接到两个 PCIe Gen5的SSD。因此,整个生态系统不需要都升级到PCIe Gen6才能发挥效用,可以随着时间推移逐步发展。
但目前PCIe Gen6的需求已经出现,预计2025年市场就会开始部署PCIe Gen6 的方案。