大語(yǔ)言模型(Large Language Model,下文簡(jiǎn)稱(chēng)為:LLM)的發(fā)展如火如荼。以ChatGPT為代表的LLM可執行更為廣泛的任務(wù)并具有更高的智能化程度,刷新了人們對AI技術(shù)的新認知。當然,LLM規模龐大,通常包含數十億參數,需要海量的訓練數據與強大算力支撐才能達到預期的效果。
其實(shí),無(wú)論LLM還是其他應用越來(lái)越廣泛的深度學(xué)習模型,從模型訓練到推理應用,都需要高性能、可擴展的基礎設施作為底層支撐,這往往也意味著(zhù)高昂的成本。近日,英特爾發(fā)布的最新Habana? Gaudi?2,專(zhuān)為訓練大語(yǔ)言模型而構建,并為數據中心大規模擴展而設計,同時(shí)為深度學(xué)習訓練和推理工作負載提供極具性?xún)r(jià)比的解決方案。
在6月公布的MLCommons? MLPerf? 基準測試中,Gaudi?2在GPT-3模型、計算機視覺(jué)模型ResNet-50(使用8個(gè)加速器)、Unet3D(使用8個(gè)加速器),以及自然語(yǔ)言處理模型BERT(使用8個(gè)和64個(gè)加速器)上均取得了優(yōu)異的訓練結果。與市場(chǎng)上其他面向大規模生成式AI和大語(yǔ)言模型的產(chǎn)品相比,Gaudi?2擁有卓越的性能與領(lǐng)先的性?xún)r(jià)比優(yōu)勢,能夠幫助用戶(hù)提升運營(yíng)效率的同時(shí),降低運營(yíng)成本。
Gaudi?2實(shí)現性能、可擴展性和能效飛躍
第二代Gaudi AI深度學(xué)習夾層卡 HL-225B 專(zhuān)為數據中心實(shí)現大規模橫向擴展而設計。其AI處理器基于第一代 Gaudi的高效架構打造而成,目前采用7納米制程工藝,在性能、可擴展性和能效方面均實(shí)現了飛躍。
夾層卡搭載的HL-2080 處理器擁有24個(gè)完全可編程的第四代張量處理器核心(TPC)。這些核心原生設計便能夠為廣泛的深度學(xué)習工作負載加速,同時(shí)還賦予用戶(hù)按需進(jìn)行優(yōu)化和創(chuàng )新的靈活性。此外,它還集成了96GB HBM2e內存和48MB SRAM,支持600瓦夾層卡級熱設計功耗(TDP)。
Gaudi?2 處理器具備出色的2.1 Tbps 網(wǎng)絡(luò )容量可擴展性,原生集成21個(gè)100 Gbps RoCE v2 RDMA端口,可通過(guò)直接路由實(shí)現Guadi 處理器間通信。Gaudi?2處理器集成了專(zhuān)用媒體處理器,用于圖像和視頻解碼及預處理。
此外,Gaudi?2 深度學(xué)習夾層卡符合OCP OAM 1.1(開(kāi)放計算平臺之開(kāi)放加速器模塊)等多種規范,可以為客戶(hù)帶來(lái)系統設計的靈活性。
圖:Gaudi?2 深度學(xué)習夾層卡 HL-225B 主要參數
多維度技術(shù)創(chuàng )新,實(shí)現卓越性?xún)r(jià)比
Gaudi?2 處理器是一款高性能、完全可編程的AI處理器,它整合了多項技術(shù)創(chuàng )新,從計算架構、內存和擴展能力三個(gè)維度打造全新的AI 專(zhuān)用處理器。同時(shí),它具有高內存帶寬/容量和基于標準以太網(wǎng)技術(shù)的縱向擴展能力,支持使用外接網(wǎng)卡通過(guò)PCIe接口實(shí)現橫向擴展,滿(mǎn)足多節點(diǎn)集群需要。
[ 性能更高的計算架構 ]Gaudi?2 采用經(jīng)過(guò)驗證的高性能深度學(xué)習AI訓練處理器架構,利用Habana完全可編程的TPC和GEMM引擎,支持面向AI的高級數據類(lèi)型:FP8、BF16、FP16、TF32和FP32。TPC核心旨在支持深度學(xué)習訓練和推理工作負載。TPC是一款VLIW SIMD矢量處理器,其指令集和郵件經(jīng)過(guò)定制,可高效處理上述工作負載。
[ 更先進(jìn)的內存技術(shù) ]內存帶寬和容量與計算能力同樣重要。Gaudi?2 采用先進(jìn)的HBM內存技術(shù),內存容量高達96GB,內存帶寬高達2.4TB/s。Gaudi先進(jìn)的HBM控制器已針對隨機訪(fǎng)問(wèn)和線(xiàn)性訪(fǎng)問(wèn)進(jìn)行了優(yōu)化,在各種訪(fǎng)問(wèn)模式下均可提供高內存帶寬。
[ 通過(guò)集成RDMA實(shí)現縱向擴展 ]Gaudi AI訓練處理器芯片上集成了RDMA(RoCEv2),可與成熟且廣泛使用的以太網(wǎng)進(jìn)行連接。HL-2080芯片互連技術(shù)基于42對56 Gbps Tx/Rx PAM4 SerDes(配置為21個(gè)100 GbE端口)發(fā)揮作用。
與廣泛的軟件生態(tài)一起,幫助簡(jiǎn)化模型的開(kāi)發(fā)和遷移
為支持客戶(hù)輕松構建模型,或將當前基于GPU的模型業(yè)務(wù)和系統遷移到基于全新Gaudi?2服務(wù)器,并幫助保護軟件開(kāi)發(fā)投入,SynapseAI? 軟件套件針對Gaudi平臺深度學(xué)習業(yè)務(wù)進(jìn)行了優(yōu)化,旨在與廣泛的軟件生態(tài)系統一起,幫助簡(jiǎn)化模型的開(kāi)發(fā)和遷移。
SynapseAI? 軟件套件旨在提高 Habana AI處理器的易用性和支持高性能訓練,能夠將神經(jīng)網(wǎng)絡(luò )拓撲高效映射到Gaudi系列硬件上。該軟件套件包括Habana 的圖編譯器和運行時(shí)、經(jīng)過(guò)性能優(yōu)化的TPC算子庫、固件和驅動(dòng)程序以及開(kāi)放工具,例如用于自定義核心開(kāi)發(fā)的TPC 編程工具套件和SynapseAI 圖編譯器。SynapseAI與TensorFlow和PyTorch等主流框架集成,并已針對基于Gaudi AI 處理器家族產(chǎn)品的訓練進(jìn)行了優(yōu)化。數據科學(xué)家和開(kāi)發(fā)人員在這里可以找到開(kāi)始基于Gaudi AI 處理器進(jìn)行訓練所需的各類(lèi)信息資料,包括教程、參考模型、操作指南、文檔等。
擴展AI產(chǎn)品陣容,加速AI落地
Gaudi?2不僅以高性能為AI模型的訓練與推理加速,其高擴展性和性?xún)r(jià)比,也將加速AI應用落地的進(jìn)程。多年來(lái),借助強大的軟硬件基礎,英特爾基于全面的AI產(chǎn)品和解決方案,與廣泛合作伙伴一同構建開(kāi)放生態(tài),為越來(lái)越多不同需求和場(chǎng)景的AI應用落地提供更多元的解決方案,持續引領(lǐng)產(chǎn)品技術(shù)發(fā)展,進(jìn)一步加速大規模深度學(xué)習部署,助力中國本地AI市場(chǎng)發(fā)展。