近日,DeepSeek公司正式發(fā)布并開(kāi)源其最新技術(shù)成果FlashMLA。FlashMLA是專(zhuān)為英偉達Hopper架構GPU打造的高效多層注意力(Multi-Layer Attention)解碼內核,并特別針對變長(cháng)序列場(chǎng)景進(jìn)行了優(yōu)化,可顯著(zhù)提升大模型推理性能。同時(shí),FlashMLA通過(guò)對BF16精度的全面支持,以及采用塊大小為64的頁(yè)式鍵值緩存系統,實(shí)現了更精確的內存管理。
在性能表現方面,基于CUDA12.6平臺,FlashMLA在H800SXM5GPU上表現突出:在內存受限場(chǎng)景下達到3000GB/s的處理速度,在計算受限場(chǎng)景下則實(shí)現580TFLOPS的算力水平。