DeepSeek公司發(fā)布專(zhuān)為英偉達Hopper GPU打造的大模型加速器FlashMLA

數碼
TIME
2025-02-26 11:18
通信世界全媒體
分享

近日,DeepSeek公司正式發(fā)布并開(kāi)源其最新技術(shù)成果FlashMLA。FlashMLA是專(zhuān)為英偉達Hopper架構GPU打造的高效多層注意力(Multi-Layer Attention)解碼內核,并特別針對變長(cháng)序列場(chǎng)景進(jìn)行了優(yōu)化,可顯著(zhù)提升大模型推理性能。同時(shí),FlashMLA通過(guò)對BF16精度的全面支持,以及采用塊大小為64的頁(yè)式鍵值緩存系統,實(shí)現了更精確的內存管理。

在性能表現方面,基于CUDA12.6平臺,FlashMLA在H800SXM5GPU上表現突出:在內存受限場(chǎng)景下達到3000GB/s的處理速度,在計算受限場(chǎng)景下則實(shí)現580TFLOPS的算力水平。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  近期,由上海人工智能實(shí)驗室、上海交通大學(xué)等機構共同發(fā)布了一項創(chuàng )新算法技術(shù),該技術(shù)能夠使人形機器人從各種狀態(tài)下實(shí)現快速、穩定地站立。據上海人工智能實(shí)驗室青年...
智能AI
  日前,我國科學(xué)家開(kāi)發(fā)了一種名為“石蠟輔助浸入法”的新技術(shù),成功讓二維材料“卷起來(lái)”,制備出具有可控手性的石墨烯卷,為未來(lái)量子計算和自旋電子器件的發(fā)展奠定了堅實(shí)...
業(yè)界

相關(guān)推薦

1
3
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看