信通院發(fā)布《高質(zhì)量大模型基礎設施研究報告(2024年)》

數碼
TIME
2025-01-16 11:18
中國信通院
分享

隨著(zhù)大模型技術(shù)的飛速發(fā)展,模型參數量急劇增長(cháng),模型能力持續增強,智能應用百花齊放?;A設施的可用性決定了大模型研發(fā)及服務(wù)的效率,大模型服務(wù)的可用性又決定了智能應用的服務(wù)質(zhì)量。在此背景下,高質(zhì)量大模型基礎設施成為推動(dòng)大模型應用落地的關(guān)鍵要素。為充分發(fā)揮大模型基礎設施的賦能作用,更好支撐大模型發(fā)展,推動(dòng)大模型應用落地,特編制此研究報告。

1月8日,在大模型工程化成果發(fā)布會(huì )上,中國信息通信研究院(簡(jiǎn)稱(chēng)“中國信通院”)人工智能研究所發(fā)布《高質(zhì)量大模型基礎設施研究報告(2024年)》,由中國信通院人工智能研究所平臺與工程化部主任曹峰解讀。

報告聚焦大模型基礎設施的五大核心能力領(lǐng)域:計算、存儲、網(wǎng)絡(luò )、開(kāi)發(fā)工具鏈和運維管理,系統梳理了大模型發(fā)展對基礎設施提出的新需求,剖析了基礎設施發(fā)展的關(guān)鍵技術(shù),并提出體系化評價(jià)指標。同時(shí),報告通過(guò)分析業(yè)界典型實(shí)踐案例,為企業(yè)建設高質(zhì)量大模型基礎設施提供了參考。

報告核心觀(guān)點(diǎn)

1. 計算資源分配粗放,高效異構算力融合調度成為新需求。一是異構資源統一納管。算力資源利舊帶來(lái)不同架構AI芯片納管需求,大模型在科學(xué)、工業(yè)仿真等領(lǐng)域應用加深帶來(lái)CPU和AI芯片納管需求。華為、移動(dòng)、電信等廠(chǎng)商積極推動(dòng)異構智算管理平臺研發(fā),通過(guò)統一編程接口、智能調度等技術(shù),實(shí)現對多類(lèi)異構算力資源協(xié)同管理,提高算力利用率。二是智能化調度實(shí)現算力經(jīng)濟最大化。通過(guò)自動(dòng)化監控、預測、自適應調度等技術(shù)優(yōu)化資源利用,采用“AI+歷史數據+實(shí)時(shí)數據”分析,實(shí)現算力需求精準預測,動(dòng)態(tài)調度。

2. 海量數據處理低效,高性能大模型存儲技術(shù)成為新關(guān)鍵。一是長(cháng)記憶存儲助力推理降本增效。通過(guò)高性能存儲的大范圍全局共享和持久化KV Cache能力,可實(shí)現高性?xún)r(jià)比推理加速,經(jīng)企業(yè)實(shí)踐驗證,推理吞吐提速可超50%,推理成本顯著(zhù)下降。二是加速卡直通存儲實(shí)現數據直達。通過(guò)加速卡和存儲設備的數據一跳直達,可以消除CPU處理瓶頸,極大提升數據從存儲到加速卡的數據傳輸效率,經(jīng)企業(yè)實(shí)踐驗證,可實(shí)現TB/s級帶寬和億級IOPS,每個(gè)機架單元的存儲性能可達50GB/s以上,大幅提升集群可用度。三是數據編織技術(shù)提高全流程效率。通過(guò)數據編織技術(shù),實(shí)現全局數據可視可管,跨域統一視圖。

3. 并行計算規模攀升,高通量大規模網(wǎng)絡(luò )技術(shù)成為新方案。一是負載均衡技術(shù)助力解決“算等網(wǎng)”問(wèn)題。經(jīng)企業(yè)實(shí)踐驗證,逐流方案通過(guò)定制化的xCCL配合網(wǎng)絡(luò )路徑優(yōu)化,在保證網(wǎng)絡(luò )高可靠性的同時(shí),網(wǎng)絡(luò )鏈路利用率可達90%以上。逐包方案通過(guò)自適應路由等技術(shù),可實(shí)現整網(wǎng)吞吐達到90%以上。二是參數面、存儲面/樣本面、業(yè)務(wù)面、帶外管理面網(wǎng)絡(luò )互聯(lián)有效提升大模型訓練效率。在訓前、訓中、訓后,多網(wǎng)絡(luò )面互聯(lián)解決訓練過(guò)程涉及的數據、模型、模型參數、檢查點(diǎn)等的寫(xiě)入和導出問(wèn)題。

4. 模型參數急劇增長(cháng),高效能大模型開(kāi)發(fā)技術(shù)成為新解法。一是訓練加速技術(shù)涌現支撐大模型高效構建。計算資源優(yōu)化方法通過(guò)混合精度計算等方式,減少計算和存儲需求,有效提升模型效率。計算優(yōu)化策略通過(guò)算子融合、梯度積累技術(shù)等實(shí)現模型執行效率提升。二是推理技術(shù)提升模型推理效率。模型壓縮通過(guò)低比特量化、稀疏化等方式實(shí)現模型訓中、訓后的低損與高效壓縮。推理引擎技術(shù)進(jìn)一步提升推理性能和兼容性。

5. 基礎設施故障率高,高容錯大模型運維技術(shù)成為新手段。一是訓前健康檢查保障作業(yè)零隱患運行。通過(guò)全棧隱患排查,降低作業(yè)啟動(dòng)失敗頻率,避免計算資源損失。二是訓中故障可預測、可恢復。通過(guò)智能監控告警技術(shù),進(jìn)行端側監控、擁塞分析等輔助故障定位,基于既有運維知識庫,實(shí)現異常預測、RCA根因定位,有效提升集群穩定運行時(shí)長(cháng)。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  從2025年1月20日起,購買(mǎi)手機確實(shí)可以享受最高500元的補貼?。這一政策是由商務(wù)部等部門(mén)印發(fā)的手機、平板、智能手表(手環(huán))購新補貼實(shí)施方案所明確的。具體來(lái)說(shuō),個(gè)人消...
消費
  近日,南京天創(chuàng )電子成功發(fā)布全球首款防爆人形機器人“天魁1號”,這一重大科技成果的誕生,標志著(zhù)中國在機器人領(lǐng)域再次取得了令人矚目的突破,站在了全球科技的前沿?! ?..
智能AI
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看