信而泰CCL仿真:解鎖AI算力極限,智算中心網(wǎng)絡(luò )性能躍升之道

數碼
TIME
2025-02-26 07:18
通信世界全媒體
分享

隨著(zhù)AI大模型訓練和推理需求的爆發(fā)式增長(cháng),智算中心網(wǎng)絡(luò )的高效性與穩定性成為決定AI產(chǎn)業(yè)發(fā)展的核心要素。信而泰憑借自主研發(fā)的CCL(集合通信庫)評估工具與DarYu-X系列測試儀,為智算中心RoCE網(wǎng)絡(luò )提供精準評估方案,助力企業(yè)突破算力瓶頸,釋放AI澎湃動(dòng)力。

智算中心(AIDC,Artificial Intelligence Data Center)是專(zhuān)門(mén)為人工智能應用提供算力支持的高性能數據中心,是人工智能技術(shù)與云計算、大數據、物聯(lián)網(wǎng)等現代信息技術(shù)深度融合的產(chǎn)物。它基于最新的人工智能理論,采用前沿的計算架構,為AI模型的訓練、推理和應用提供強大的算力服務(wù)、數據服務(wù)和算法服務(wù)。

對智算中心的RoCE網(wǎng)絡(luò )進(jìn)行評估測試,是為了確保其能夠高效、穩定地支持大規模AI訓練任務(wù)。具體原因包括:

驗證性能:確保網(wǎng)絡(luò )具備低延遲、高吞吐量,滿(mǎn)足智算中心對高性能的需求。

優(yōu)化可靠性:通過(guò)測試發(fā)現潛在問(wèn)題,提升網(wǎng)絡(luò )的穩定性和容錯能力。

成本效益:評估RoCE網(wǎng)絡(luò )的性?xún)r(jià)比,選擇最優(yōu)方案。

支持分布式訓練:驗證網(wǎng)絡(luò )在大規模分布式AI任務(wù)中的表現,優(yōu)化數據傳輸效率。

指導運維:提前發(fā)現問(wèn)題,優(yōu)化運維策略,減少故障風(fēng)險。

智算中心網(wǎng)絡(luò )評估工具-CCL

使用集合通信流量來(lái)評估智算中心網(wǎng)絡(luò )的RoCE(RDMA over Converged Ethernet)性能,主要有以下幾個(gè)原因:集合通信是智算中心的關(guān)鍵特征:智算中心的業(yè)務(wù)(如AI大模型訓練)依賴(lài)于高度同步的集合通信操作(如AllReduce、Broadcast),這些操作要求低延遲和高帶寬的網(wǎng)絡(luò )支持。集合通信對網(wǎng)絡(luò )性能要求極高:集合通信操作(如AllReduce)需要高吞吐量和低延遲,RoCE通過(guò)RDMA機制能夠顯著(zhù)降低通信延遲并提高帶寬利用率。RoCE性能直接影響智算中心效率:RoCE網(wǎng)絡(luò )的性能直接影響分布式訓練任務(wù)的通信效率,進(jìn)而影響整個(gè)智算中心的加速比和效率。集合通信流量能夠全面評估RoCE性能:集合通信涵蓋了多種通信模式(如點(diǎn)對點(diǎn)、廣播、多點(diǎn)通信),能夠全面測試RoCE網(wǎng)絡(luò )的帶寬、延遲、擁塞控制和負載均衡能力。RoCE在智算中心的廣泛應用:RoCE技術(shù)因其開(kāi)放性、互操作性和成本效益,在智算中心中廣泛應用。評估其性能有助于優(yōu)化配置,提升整體性能。如何使用儀表CCL評估智算網(wǎng)絡(luò )

使用信而泰Renix軟件平臺提供的CCL Traffic Emulation向導,測試配置實(shí)現通過(guò)向導配置,生成復雜的訓練流量。針對不同AI訓練數據包,評估在非擁塞網(wǎng)絡(luò )、擁塞網(wǎng)絡(luò )各項指標。對比網(wǎng)絡(luò )正常和網(wǎng)絡(luò )故障情況下各項組網(wǎng)指標,比如任務(wù)時(shí)間、訓練時(shí)間、算法帶寬、總線(xiàn)帶寬、收發(fā)報文數量、時(shí)延、抖動(dòng)、亂序等關(guān)鍵數據。

通過(guò)使用儀器儀表模擬GPU通信,可以有效降低測試成本,同時(shí)簡(jiǎn)化AI測試的復雜性和維護難度。這種方法使AI測試從傳統的搭建真實(shí)服務(wù)器和使用價(jià)格高昂的GPU來(lái)測試RoCE交換機,轉變?yōu)槔猛ㄓ脙x表儀器進(jìn)行測試。這一轉變不僅大幅節省了測試成本,還統一了驗證規范,為國產(chǎn)AI的崛起提供了有力支持。以下以8卡400G GPU模型訓練為例,對比Ring Allreduce模型在非擁塞和擁塞網(wǎng)絡(luò )環(huán)境下不同數據量(Data Size)的參數表現。通過(guò)實(shí)際數據對比,可以直觀(guān)地體現CCL(Collective Communication Library,集合通信庫)在評估網(wǎng)絡(luò )性能方面的重要意義。

CCL指標

如下圖所示,使用Ring Allreduce在不同訓練任務(wù)在非擁塞網(wǎng)絡(luò )中體現。

如下圖所示,使用Ring Allreduce不同訓練任務(wù)在擁塞網(wǎng)絡(luò )(PFC)中體現。

如下圖所示,使用Ring Allreduce不同訓練任務(wù)在擁塞網(wǎng)絡(luò )(ECN+DCQCN)中體現。

Latency and Jitter by Data Size指標

如下圖所示,使用Ring Allreduce在不同訓練任務(wù)在非擁塞網(wǎng)絡(luò )中體現。

如下圖所示,使用Ring Allreduce不同訓練任務(wù)在擁塞網(wǎng)絡(luò )(PFC)中體現。

如下圖所示,使用Ring Allreduce不同訓練任務(wù)在擁塞網(wǎng)絡(luò )(ECN+DCQCN)中體現。

對比不同場(chǎng)景下訓練時(shí)間(無(wú)擁塞/擁塞+PFC/擁塞+ECN/DCQCN)。

對比不同場(chǎng)景下算法帶寬(無(wú)擁塞/擁塞+PFC/擁塞+ECN/DCQCN)。

對比不同場(chǎng)景下總線(xiàn)帶寬(無(wú)擁塞/擁塞+PFC/擁塞+ECN/DCQCN)。

通過(guò)信而泰Renix軟件平臺的CCL Traffic Emulation功能,能夠精確評估RoCE網(wǎng)絡(luò )的關(guān)鍵指標,為AI網(wǎng)絡(luò )的評估提供精細化數據支持。對比實(shí)驗的結果可全面評估RoCE交換機的性能。該方案通過(guò)模擬真實(shí)AI工作負載,能夠在復雜流量和大規模組網(wǎng)場(chǎng)景下,全面測試RoCE交換機的性能表現,并精準識別組網(wǎng)瓶頸,提升評估的精確性和實(shí)用性。

高密度智算網(wǎng)絡(luò )測試解決方案

信而泰推出的X2-100G-12QSFP28、X5-400G高密度智算非擁塞網(wǎng)絡(luò )(ROCEv2)測試儀是一款專(zhuān)為高端路由器、交換機以及數據中心交換機設計的高密度測試平臺。該測試平臺充分滿(mǎn)足運營(yíng)商、網(wǎng)絡(luò )設備制造商和企業(yè)用戶(hù)在高速以太網(wǎng)和智能計算網(wǎng)絡(luò )測試業(yè)務(wù)中對增長(cháng)和未來(lái)發(fā)展的需求。其高密度設計使得它在有限的空間內提供強大的測試能力,是應對未來(lái)網(wǎng)絡(luò )挑戰的理想選擇。

客戶(hù)價(jià)值

超高密度:?jiǎn)螜C支持400G/200G/100G多速率,12端口靈活配置;全協(xié)議兼容:支持RoCEv2、標準以太網(wǎng),適配異構網(wǎng)絡(luò )環(huán)境;智能化測試:一鍵生成復雜流量模型,3分鐘完成網(wǎng)絡(luò )健康度診斷。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  蘋(píng)果官方今天宣布,Apple 開(kāi)發(fā)者官方公眾號現在已經(jīng)正式上線(xiàn),通過(guò)該官方公眾號,提供面向中文開(kāi)發(fā)者社區的最新新聞、公告和活動(dòng)動(dòng)態(tài)?! ∧壳?,Apple 開(kāi)發(fā)者官方公眾號...
互聯(lián)網(wǎng)
  日前,微信PC版發(fā)布4.0.2測試版更新,該版本不需要內測權限,屬于公測版,大家都可下載?! 〗袢?,經(jīng)快科技實(shí)測,該版本新增了收好友紅包功能,在PC上就能領(lǐng)取紅包,比較方便?!?..
互聯(lián)網(wǎng)
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看