資料中心系統連接解決方案供應商Astera Labs產品管理協理Ahmad Danesh,日前特別接受CTIMES的專訪,暢談該公司最新推出的Scorpio 智慧型交換器晶片系列。這款產品主要作為人工智慧(AI) 基礎架構的效能和擴展能力的晶片系列,包含Scorpio P系列和X系列兩款晶片,均採用軟體定義架構,可實現更高的靈活性和客製化設計。
Ahmad Danesh表示,Astera Labs的產品均以軟體定義的架構為基礎進行開發。這種架構使其能夠以一套硬體,如晶片、模組等,並開發可在其上執行的嵌入式軟體,從而實現更快的互通性,並且在許多情況下,可以解決合作夥伴硬體中的問題,使生態系統更快地發展。
關於Fabric Switch Scorpio P系列和X系列
而針對此次新發表的Fabric Switch交換器晶片系列,Ahmad Danesh指出,Scorpio P系列是業界首款PCIe 6交換器晶片,用於在將GPU連接到其他的運算資源,例如CPU、NIC網路卡和儲存設備(SSD)。由於每個 GPU 通常都需要 PCIe 介面才能進行連接,因此該晶片可提供必要的互通性;至於Scorpio X系列,則適用於後端GPU的擴展(scale-up),它能以機架等級(Rack-level)連接同質的GPU,讓用戶迅速擴展後端算力。
Ahmad Danesh解釋說,AI市場的模型正變得越來越複雜,並且具有非常不受限制的工作負載。一開始只是文字的ChatGPT,接著變成了圖像,現在正轉往影片發展,並且正在變成非常不同的即時推斷以及推理,或者試圖根據資料得出結論。因此,從資料和AI平台的角度來看,它需要這些不同的分散式架構、不同的客製化架構,並且非常注重橫向擴展,以便能夠建立越來越大的GPU拓撲以及縱向擴展架構,以便能夠建立可處理此資料的GPU叢集。
而Scorpio交換器晶片就是為了應對當前AI應用的挑戰所設計,以滿足日益成長的規模擴展和規模提升需求。透過Scorpio交換器,客戶可以建立更大的 GPU 拓撲,以處理不斷增加的資料量和模型複雜性。
Astera Labs預計,到2028年,Scorpio P系列和X系列的潛在市場規模將達到 50 億美元。目前也已向主要的AI平台供應商供貨。Ahmad他本人便在台北拜會ODM 業者,而他們都在積極開發用於超大規模資料中心的硬體。
除了Scorpio晶片外,Astera Labs還宣布推出Cosmos軟體方案,該方案能為整個AI基礎架構提供了遠端管理、診斷和效能監測等資訊。Cosmos可使客戶能夠監控其所有設備、網路連線和匯流排通道(lane),以確保它們能夠最大程度的優化GPU利用率和資料正常執行時間。
Ahmad Danesh表示,Cosmos軟體方案與Astera Labs的硬體一起提供,是整體系統工作的重要基石,它能為整個資料中心提供更佳的可視性。儘管沒有直接支援他廠的元件,但也能透過擷取整體系統的資訊,以監控個別單元與系統運行情況。
UALink聯盟的成立
另外一個亮點,則是「UALink」聯盟的發布。Ahmad Danesh表示,Astera Labs 是UALink聯盟的成員之一,該聯盟是一個由產業領導者組成的團體,包含、AWS、AMD、Google、Intel、Meta等,目標是為規模提升架構開發一個開放式的產業標準,目前Astera Labs也正在開發支援UALink 協定的產品。
關於PCIe Gen5和Gen 6的市場進展
而談到PCIe Gen5和Gen 6的市場進展,Ahmad Danesh認為,PCIe Gen5的使用壽命會很長,在生態系統中還會持續存在相當一段時間。但PCIe Gen6的轉換速度也會很快,特別是GPU 和加速器等將會很快轉向PCIe Gen6,接著是NIC,然後是 CPU,最後才是 SSD。SSD可能會在Gen5停留很長一段時間。
不過他指出,即使只有GPU升級到PCIe Gen6,其他設備維持PCIe Gen5仍然可以運作。例如,一個PCIe Gen6的GPU可以透過PCIe Gen5的NIC連接到兩個 PCIe Gen5的SSD。因此,整個生態系統不需要都升級到PCIe Gen6才能發揮效用,可以隨著時間推移逐步發展。
但目前PCIe Gen6的需求已經出現,預計2025年市場就會開始部署PCIe Gen6 的方案。