劉韻潔
中國工程院院士,網(wǎng)絡(luò )通信與安全紫金山實(shí)驗室主任
“東數西算”是我國為促進(jìn)數字經(jīng)濟發(fā)展、建設數字中國而推動(dòng)實(shí)施的一項國家戰略工程。算力和網(wǎng)絡(luò )的發(fā)展日益呈現一體共生趨勢,網(wǎng)絡(luò )從連接算力演進(jìn)為動(dòng)態(tài)感知算力、可定制承載算力,實(shí)現在網(wǎng)計算隨需隨算,算力無(wú)處不在。
數字經(jīng)濟發(fā)展對算力網(wǎng)絡(luò )提出重大挑戰
ChatGPT的出現讓“算力網(wǎng)絡(luò )”這一概念受到越來(lái)越多的關(guān)注,但美國通過(guò)限制相關(guān)技術(shù)和高端芯片的出口不斷對我國進(jìn)行擠壓,企圖通過(guò)5納米、7納米等高端GPU(圖形器處理)芯片對中國禁運,讓中國的算力尤其在智能算力方面永遠落后于美國。面對這種情況,我們不僅要盡快突破算力網(wǎng)絡(luò )關(guān)鍵核心技術(shù),更要找到適合自身國情的算力網(wǎng)絡(luò )發(fā)展路徑。
以ChatGPT-3為例,它有1750億個(gè)參數,其訓練使用了微軟的人工智能計算系統,該系統由1萬(wàn)個(gè)V100GPU和28.5萬(wàn)個(gè)CPU組成,每個(gè)GPU服務(wù)器擁有400Gb/s的網(wǎng)絡(luò )性能,這樣才能滿(mǎn)足訓練所需約3640PF-days(即假如每秒計算一千萬(wàn)億次,需要計算3640天)的算力。由于美國高端人工智能芯片禁售,我國若要滿(mǎn)足如此龐大的算力需求,除阿里、騰訊等大算力中心有這樣的能力外,對于普遍需要大模型訓練的單位而言,比較現實(shí)的路徑就是把多個(gè)分散的數據中心通過(guò)網(wǎng)絡(luò )連接起來(lái),形成算力集群,開(kāi)展協(xié)同計算、并行計算等來(lái)彌補單個(gè)數據中心算力不足的劣勢。
然而,數據中心之間的連接和海量數據的傳輸又對網(wǎng)絡(luò )提出更高的要求,即要能實(shí)現超長(cháng)距離無(wú)損數據傳輸。國際上做過(guò)相關(guān)試驗,在算力網(wǎng)絡(luò )條件下,如果丟包率大于1%,傳輸效率將下降50%;如果丟包率大于2%,傳輸效率則將接近于0。這對我們實(shí)現數據遠距離無(wú)損傳輸提出很大挑戰,因此,我們建議利用確定性網(wǎng)絡(luò ),并結合RDMA(遠程直接數據存?。┑葻o(wú)損傳輸技術(shù)來(lái)提升國家整體算力和網(wǎng)絡(luò )資源效能。
確定性網(wǎng)絡(luò )技術(shù)成為推動(dòng)算力網(wǎng)絡(luò )發(fā)展的關(guān)鍵
確定性網(wǎng)絡(luò )技術(shù)得到國際同行的認可,相關(guān)研究也有很多。例如,IETF(國際互聯(lián)網(wǎng)工程任務(wù)組)在2015年10月成立DetNet(確定性網(wǎng)絡(luò ))工作小組,側重研究為網(wǎng)絡(luò )層數據傳輸提供確定性延遲、丟包、抖動(dòng)以及高可靠性的標準和能力;3GPP(第三代合作伙伴計劃)于R16、R17、R18標準先后支持IEEE(電氣與電子工程師協(xié)會(huì ))TSN (時(shí)間敏感網(wǎng)絡(luò ))協(xié)議的5G網(wǎng)絡(luò )系統,確立5G系統的確定性機制并進(jìn)行標準化;美國能源部、國際電工委員會(huì )(IEC)等組織也都制定了相關(guān)標準。國內方面,中國信息通信研究院聯(lián)合國內多家網(wǎng)絡(luò )相關(guān)單位共同組建的網(wǎng)絡(luò )5.0產(chǎn)業(yè)和技術(shù)創(chuàng )新聯(lián)盟,開(kāi)展DIP(確定性IP)研究;工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟啟動(dòng)“時(shí)間敏感網(wǎng)絡(luò )(TSN)產(chǎn)業(yè)鏈名錄計劃”。
確定性網(wǎng)絡(luò )正成為未來(lái)網(wǎng)絡(luò )產(chǎn)業(yè)發(fā)展的核心,也是我國在網(wǎng)絡(luò )領(lǐng)域實(shí)現“換道超車(chē)”的重要歷史機遇。那么,如何實(shí)現網(wǎng)絡(luò )的確定性服務(wù)能力呢?這就需要一個(gè)新的網(wǎng)絡(luò )體系架構?;舅悸肪褪前丫W(wǎng)絡(luò )軟硬件設備進(jìn)行解耦,將網(wǎng)絡(luò )資源盡量開(kāi)放,功能細化,變成可重構、可調度的模塊,實(shí)現網(wǎng)絡(luò )資源的靈活調度控制和按需配置?;诖?,我們在全球率先提出“服務(wù)定制網(wǎng)絡(luò )(SCN)新型網(wǎng)絡(luò )體系架構”,在網(wǎng)絡(luò )承載、網(wǎng)絡(luò )控制、網(wǎng)絡(luò )服務(wù)三個(gè)平面實(shí)現多項核心技術(shù)突破,改變傳統互聯(lián)網(wǎng)TCP/IP協(xié)議僵化和不可控問(wèn)題,實(shí)現互聯(lián)網(wǎng)核心技術(shù)的自主可控和發(fā)展主動(dòng)權。
而這個(gè)架構的實(shí)現需要有一個(gè)大網(wǎng)的操作系統,它就像網(wǎng)絡(luò )的“超級大腦”一樣,能對整個(gè)網(wǎng)絡(luò )資源進(jìn)行實(shí)時(shí)數據采集和分析,對網(wǎng)絡(luò )進(jìn)行融合控制,從而確保網(wǎng)絡(luò )服務(wù)能力確定性可控。我國具有自主知識產(chǎn)權的大網(wǎng)操作系統目前已在400多個(gè)城市、1100多個(gè)節點(diǎn)的骨干網(wǎng)上穩定運行了5年。
在大算力場(chǎng)景下,確定性網(wǎng)絡(luò )在滿(mǎn)足數據高速、遠距離、無(wú)損傳輸需求方面具有明顯的優(yōu)越性。從未來(lái)網(wǎng)絡(luò )試驗設施(CENI)現網(wǎng)測試數據可以看出,基于確定性網(wǎng)絡(luò )技術(shù)的傳輸效率遠遠優(yōu)于傳統網(wǎng)絡(luò )技術(shù),如相較于FTP(文件傳輸協(xié)議)效率可提升36倍,相較于QUIC(快速UDP網(wǎng)絡(luò )連接)效率可提升15倍,且對于線(xiàn)路延時(shí)、丟包的魯棒性更好。因此,確定性網(wǎng)絡(luò )將成為支撐大算力應用高速傳輸的堅實(shí)底座。
確定性網(wǎng)絡(luò )正在助力數字經(jīng)濟高質(zhì)量發(fā)展
實(shí)際上,目前相關(guān)團隊正在規劃將確定性網(wǎng)絡(luò )應用在“東數西算”工程項目中,依托未來(lái)網(wǎng)絡(luò )試驗設施建設連接“東數西算”八大樞紐節點(diǎn)數據中心的“確定性新總線(xiàn)”,項目完成后將極大地提升我國算力資源使用效率,為電力、氣象、能源等重大應急安全領(lǐng)域提供安全、可靠、高效的網(wǎng)絡(luò )支持能力,助力我國數字經(jīng)濟高質(zhì)量發(fā)展和碳達峰、碳中和目標的實(shí)現。
“東數西算”工程解讀。
ChatGPT的出現加速了人工智能大模型時(shí)代的到來(lái),未來(lái)每個(gè)行業(yè),甚至每個(gè)企業(yè)都可以擁有自己的大模型,這要求網(wǎng)絡(luò )能夠提供全域確定性服務(wù)能力。目前,我國已基于未來(lái)網(wǎng)絡(luò )試驗設施構建了覆蓋全國35個(gè)城市的廣域確定性網(wǎng)絡(luò ),可實(shí)現跨一萬(wàn)公里數據傳輸,端到端的時(shí)延抖動(dòng)小于50微秒,做到零丟包、不亂序,可為將來(lái)不同行業(yè)、不同場(chǎng)景下的大模型訓練提供確定性網(wǎng)絡(luò )支撐能力,大大提升了大模型的生成效率。
此外,確定性網(wǎng)絡(luò )還可為工業(yè)互聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)、元宇宙、科學(xué)研究等典型場(chǎng)景提供高效的網(wǎng)絡(luò )支撐能力。以“中國天眼”——500米口徑球面射電望遠鏡(FAST)為例,當前,FAST每小時(shí)產(chǎn)生超過(guò)7TB的巡天數據,這對網(wǎng)絡(luò )傳輸、數據存儲、計算處理能力都帶來(lái)嚴峻挑戰。項目團隊依托未來(lái)網(wǎng)絡(luò )試驗設施,建立算網(wǎng)融合的FAST巡天科研環(huán)境,協(xié)助FAST團隊突破海量科學(xué)原始數據的快速傳輸、高通量計算難題,極大地提升了技術(shù)創(chuàng )新效率。
“中國天眼”——500米口徑球面射電望遠鏡(FAST)位于貴州省黔南布依族苗族自治州境內。面對互聯(lián)網(wǎng)下半場(chǎng)發(fā)展,即從消費領(lǐng)域進(jìn)入實(shí)體經(jīng)濟的歷史機遇期,確定性網(wǎng)絡(luò )有望解決傳統互聯(lián)網(wǎng)擁塞無(wú)序的問(wèn)題,推動(dòng)互聯(lián)網(wǎng)從“盡力而為”到“確保所需”的技術(shù)體系變革。希望我們能抓住這一重大機遇,不斷突破確定性網(wǎng)絡(luò )核心技術(shù),不斷發(fā)展完善確定性網(wǎng)絡(luò )相關(guān)產(chǎn)業(yè)生態(tài),實(shí)現核心標準、芯片、設備的自主可控,引領(lǐng)算力網(wǎng)絡(luò )技術(shù)和應用的發(fā)展。