近日,在中國移動(dòng)集團公司指導下,中國移動(dòng)研究院聯(lián)合中國移動(dòng)黑龍江公司在全球運營(yíng)商最大單集群智算中心——中國移動(dòng)(哈爾濱)數據中心完成首個(gè)面向PP(流水線(xiàn)并行)訓練的OTN承載百公里級智算分布式協(xié)同現網(wǎng)技術(shù)試驗。本次技術(shù)試驗首次完成了基于800G OTN的104km跨智算集群分布式PP訓練,實(shí)現了等同單節點(diǎn)訓練效率98%以上的高效協(xié)同訓練,是業(yè)界首次百公里級跨集群PP訓練可行性技術(shù)驗證探索。
隨著(zhù)智算集群規模向超萬(wàn)卡演進(jìn),單智算節點(diǎn)的持續擴容將面臨電力供應、機房空間的巨大挑戰,而且智算中心分地域、分時(shí)期、分階段建設現象較為普遍。智算分布式協(xié)同是破解單節點(diǎn)集中部署受限、算力資源孤島等難題的重要解決方案。而如何將分布式部署的智算節點(diǎn)進(jìn)行高效的互聯(lián),充分發(fā)揮算力資源的最大效能,是業(yè)界亟需研究的關(guān)鍵問(wèn)題。OTN具有大帶寬、穩定低時(shí)延、高可靠等傳輸和組網(wǎng)技術(shù)特點(diǎn),已廣泛應用于骨干傳送和城域傳送網(wǎng)絡(luò ),是構建跨集群分布式訓練的潛在互聯(lián)技術(shù)。而分布式智算對光網(wǎng)絡(luò )的新需求與采用的DP(數據并行)、PP等訓練并行模式直接相關(guān),其中,PP是基礎大模型訓練的最常用并行方式之一,相比DP具有通信頻次高、通信時(shí)間不可全部掩蓋等更高難度,其拉遠可行性在業(yè)界存在較大分歧。
中國移動(dòng)研究院面向智算分布式協(xié)同場(chǎng)景持續開(kāi)展技術(shù)創(chuàng )新,完成業(yè)界首個(gè)面向PP訓練的OTN承載百公里級智算分布式協(xié)同技術(shù)現網(wǎng)試驗。在試驗中基于800G OTN互聯(lián)的兩個(gè)智算集群上運行700億級參數的大型基礎語(yǔ)言模型,在64張GPU卡、4個(gè)PP域分別在相距104km的兩個(gè)節點(diǎn)部署場(chǎng)景下,實(shí)現了等同單節點(diǎn)訓練效率98%以上的高效協(xié)同訓練,是業(yè)界首次驗證了OTN承載基于PP的百公里跨集群訓練可行性,為分布式智算技術(shù)演進(jìn)提供了全新技術(shù)路線(xiàn)和詳實(shí)試驗數據。此外,還創(chuàng )新提出了面向智算分布式協(xié)同的OTN無(wú)損倒換技術(shù)方案,通過(guò)芯片級算法實(shí)現傳輸鏈路斷纖、誤碼時(shí)訓練效率的無(wú)損和無(wú)感知。
自2023年起,中國移動(dòng)研究院聯(lián)合國內合作伙伴,開(kāi)展跨集群分布式訓練互聯(lián)技術(shù)攻關(guān),創(chuàng )新提出基于OTN的智算分布式協(xié)同架構,首次完成2-100公里不同距離多場(chǎng)景下OTN承載分布式智算技術(shù)試驗,相關(guān)成果在光通信頂會(huì )ECOC發(fā)表。中國移動(dòng)后續將圍繞智算分布式協(xié)同深入推進(jìn)關(guān)鍵技術(shù)攻關(guān)、原型研發(fā)與試驗驗證,探索分布式智算中心新模式。