2023年9月19日23點(diǎn)35分,英特爾正式解禁Meteor Lake處理器各項技術(shù)信息,其中包括架構、制程、封裝以及AI應用等關(guān)鍵特性。
Meteor Lake處理器并非14代酷睿,而是英特爾第一代酷睿Ultra處理器,也就是首個(gè)采用Intel 4制程工藝的處理器平臺。首批Meteor Lake處理器只包含面向筆記本電腦的移動(dòng)級平臺芯片,相關(guān)產(chǎn)品預計將于2024年第一季度問(wèn)世。而英特爾14代酷睿桌面級處理器預計將于10月中上旬發(fā)布。
因此本篇解析內容只涉及Meteor Lake平臺的技術(shù)信息,不涉及具體的芯片型號以及新品信息,也不涉及14代酷睿桌面級處理器的相關(guān)信息。
在帕特·基辛格回歸之后,英特爾在制程方面重新駛入快車(chē)道。4年5個(gè)制程節點(diǎn)推進(jìn)是英特爾向業(yè)界立下的“軍令狀”。與此同時(shí),英特爾更加注重PC綜合體驗的全方位提升,力求在硬件、軟件、連接性、拓展性方面實(shí)現新的突破。
因此,伴隨Meteor Lake而來(lái)的不僅僅有全新的處理器平臺,同時(shí)還包括Wi-Fi 7、Thunderbolt 5、AI等新技術(shù)、新特性。
Meteor Lake是一款突破性的產(chǎn)品,從PC端到邊緣,旨在大規模地提供高能效AI。因此它采用了英特爾首個(gè)用用于A(yíng)I加速的神經(jīng)網(wǎng)絡(luò )處理單元NPU,在PC上實(shí)現高能效本地推理,這也意味著(zhù)PC正式成為AI普及的重要平臺。
接下來(lái)讓我們通過(guò)本篇文章,一起走進(jìn)Intel 4制程時(shí)代。
·首次采用分離式模塊化架構設計
首先,我們來(lái)看看Meteor Lake的架構。
Meteor Lake采用了全新的分離式模塊設計,使整個(gè)平臺更加靈活,并能夠同時(shí)適應高性能計算和低功耗長(cháng)續航需求。
Meteor Lake包含了GPU圖形模塊、SOC模塊、CPU計算模塊以及I/O模塊,架構圖如下:
位于最上方的是GPU圖形模塊,它采用了基于Xe LPG架構打造的Intel ARC銳炫核顯,性能較此前銳矩Xe核顯提升2倍,并且支持DX12 Ultimate。Meteor Lake的GPU優(yōu)化了緩存互連,擁有8個(gè)GPU核心,128個(gè)Vector Engines(矢量引擎),幾何圖形渲染管線(xiàn)大幅提升,并且新增了8個(gè)硬件光追單元,新增了亂序采樣功能,進(jìn)一步增加準確率和性能。
位于中間的是SOC模塊,其中包含了全新的低功率計算島E-core,內置NPU AI加速引擎,支持Wi-Fi 6E和Wi-Fi 7控制器,支持8K HDR和AV1格式編碼的媒體引擎,支持原生HDMI2.1和DP2.1標準的顯示單元,并且集成了內存控制器。
位于右下角的是計算模塊,也就是我們熟悉的P-core和E-core,這次的性能核與能效核均采用全新的Intel 4制程工藝打造,并且優(yōu)化了電源管理和總線(xiàn)帶寬。
位于左下角的是I/O模塊,這里主要集成了Thunderbolt4和PCIe5.0控制器,提供出色的連接性。
在拆分成四大模塊之后,圖形、計算和I/O模塊其實(shí)都是大家比較熟悉的,但SOC模塊可以說(shuō)是Meteor Lake最為與眾不同的地方。
以往,Wi-Fi控制器、媒體引擎、顯示控制器以及內存控制器等都分布于不同IP之中。如媒體引擎以往是在GPU圖形單元之中。而Meteor Lake在基于性能與能效比的考量上,將這些控制器統一集成到了SOC模塊中。其在架構設計上遵循了四個(gè)原則:
第一,對計算的密集型IP進(jìn)行了重新劃分,以實(shí)現其功率的優(yōu)化。力求在不影響性能的情況下,大幅提高能效比。
第二,對I/O進(jìn)行了擴展,使SOC內部所有主要IP都能享受到帶寬支持,所以提供了非常大的系統內存相匹配的帶寬。
第三,在SOC的核心當中引入了超低能耗核心。
第四,重組了電源管理算法。
還是以媒體引擎為例。以往,媒體引擎集成在GPU單元中,所以只要媒體引擎在工作,實(shí)際上就是整個(gè)GPU單元在工作。而GPU在工作的同時(shí),又需要訪(fǎng)問(wèn)內存,因此還要把環(huán)形總線(xiàn)打開(kāi),這樣就會(huì )使能耗變高。
而Meteor Lake將媒體引擎與圖形單元拆分,并集成到低功耗SOC中之后,用戶(hù)在使用媒體引擎相關(guān)應用時(shí),如看視頻的時(shí)候,GPU模塊就不需要被打開(kāi)了。同時(shí),內存控制器也放到了SOC總線(xiàn)上,此時(shí)即便需要訪(fǎng)問(wèn)內存,其它幾個(gè)模塊也不需要打開(kāi),這樣就可以節省功耗,延長(cháng)電腦的續航能力。此外像I/O模塊也是同樣的原理。
SOC模塊除了集成以往的Wi-Fi控制器、媒體引擎、顯示控制器以及內存控制器之外,NPU和低功率島E-core可以說(shuō)是兩個(gè)全新的單元。
NPU是英特爾首款低功耗推理專(zhuān)用的人工智能引擎,在CPU與GPU之外,英特爾希望通過(guò)擁有更好能效比的NPU去實(shí)現對人工智能的不同維度的加速能力。它可以看作是PC普及人工智能的一個(gè)標志。在Meteor Lake平臺上,如背景虛化、人體追蹤、眼角度矯正等基于A(yíng)I的特性將被放到功耗更低的NPU上去執行,這樣可以極大程度降低CPU與GPU的使用,從而讓筆記本具有更好的續航能力。NPU支持標準化程序界面,支持商業(yè)以及開(kāi)源API,從而為人工智能應用開(kāi)發(fā)提供了非常友好的開(kāi)發(fā)界面。
具體到架構層面,NPU主要集成了兩個(gè)神經(jīng)計算引擎,它由推理管道和可編程數字信號處理器構成,具備高效靈活的矩陣乘法和卷積,支持激活函數以及數據轉換。其內置兩個(gè)MAC陣列,專(zhuān)門(mén)負責矩陣乘法和卷積,支持最佳數據重用,以降低功耗,支持INT8和FP16數據類(lèi)型。同時(shí)擁有單獨的激活函數和數據轉換模塊。此外,它還集成了DMA引擎和暫用內存,可將數據引入軟件管理的SRAM,圖形編譯器會(huì )優(yōu)化調度DMA任務(wù),并支持先進(jìn)的數據重新布局。
此外,借助OpenVINO等工具,以及對于A(yíng)I應用、大模型庫的支持,NPU在A(yíng)I相關(guān)應用,如Stable Diffusion等方面,都能提供非常出色的性能支持。NPU使得Meteor Lake整體能效提升多達8倍,它推動(dòng)了生態(tài)系統創(chuàng )新的標準化編程接口,Meteor Lake處理器全系列均支持NPU。
低功耗島,顧名思義,它的訴求就是在追求極致性能的前提下去降低能耗,延長(cháng)電池使用時(shí)間,讓系統變得更冷更安靜。將低工作負載應用直接運行在SOC模塊的低功耗E-core上,如Wi-Fi、NPU AI推理、流媒體播放等,可以實(shí)現讓用戶(hù)在運行低負載任務(wù)時(shí)只需要SOC去工作就可以了。此時(shí),計算模塊、圖形模塊都可以?huà)炱鹚?,甚至直接關(guān)閉。而當一些重負載任務(wù)運行是,如游戲等,其它模塊才會(huì )按需打開(kāi),這樣就可以力爭做到不浪費每一分能源。
此外,在實(shí)現分離式模塊化設計之后,還需要考慮不同模塊間的協(xié)同工作優(yōu)化。此時(shí)我們需要引入一個(gè)概念——Uncore(可以理解為以前的北橋)。
Meteor Lake在Uncore上進(jìn)行了電源管理的重新設計,不同模塊都有分立的電源管理控制器集成在內部。比如上圖所示,在SOC上面,PUNIT單元可以對整個(gè)SOC進(jìn)行電源管理,它通過(guò)跟不同模塊上的分電源管理器進(jìn)行溝通,提供一個(gè)實(shí)時(shí)的可擴展的電源管理架構。這個(gè)架構為Meteor Lake提供了很多新的電源管理功能,為將來(lái)的芯片設計上的電源管理奠定了非常好的基礎。
·為什么要做分離式的模塊化設計?
看到這里大家可能會(huì )有一個(gè)疑問(wèn),Meteor Lake為什么要做模塊化設計?
其實(shí)歸根結底,模塊化能夠讓芯片設計更加靈活,甚至可以實(shí)現功能模塊的定制。同時(shí)英特爾在掌握2.5D EMIB和Foveros 3D封裝技術(shù)后,也更容易實(shí)現模塊化設計。
比如想要增加NPU的功能,想要升級顯示模塊去支持8K顯示等等,分離式模塊化設計會(huì )更好實(shí)現。因為只需要把特定功能的模塊設計出來(lái),再將其與其它模塊封裝到一起即可,不需要去完全重新設計整個(gè)芯片架構。
·如何在不同模塊間實(shí)現調度?
其實(shí)從高性能異構混合架構開(kāi)始,線(xiàn)程調度就成為英特爾酷睿處理器的重要因素。Meteor Lake全新的3D高性能混合架構帶來(lái)的模塊化設計,更加需要對此進(jìn)行調優(yōu)。因此,英特爾進(jìn)一步優(yōu)化了英特爾硬件線(xiàn)程調度器。
Meteor Lake增強了英特爾硬件線(xiàn)程調度器對操作系統的反饋。在其它IP占用功耗的時(shí)候,核心功耗會(huì )被動(dòng)態(tài)分配。因此,新的硬件線(xiàn)程調度器會(huì )實(shí)時(shí)更新核心能力,以便更加精準地向操作系統報告整個(gè)核心和每個(gè)核心的內部能耗比的評估和判斷,以提供更加精確的表格給到操作系統。同時(shí)在軟件層面和系統層面,與英特爾DDT軟件結合起來(lái)對核心調配做更優(yōu)的控制。
其實(shí)這里我們需要明確一下英特爾硬件線(xiàn)程調度器的工作原理。它并不是直接控制進(jìn)程的,或者說(shuō)它不是去分配進(jìn)程到某一個(gè)具體核心上。而是介于處理器和Windows操作系統之間的一個(gè)“評分系統”。
它可以向Windows系統實(shí)時(shí)提供P-Core、E-Core、LP E-Core的硬件能力,然后反饋給操作系統線(xiàn)程調度器,最終由系統根據每個(gè)核心的評分,按照負載將任務(wù)分配到特定核心上去執行。
如下圖所示,英特爾與微軟做了一張這樣的“評分”表格,其中包含四種顏色,對應不同分類(lèi)等級。它根據P-Core、E-Core以及LP E-Core的IPC,就是每個(gè)時(shí)鐘能執行多少條指令的能力來(lái)進(jìn)行分類(lèi)。
比如Class0代表的是P-Core、E-Core在執行這種指令,每時(shí)鐘執行的指令數量基本上一致,就歸為Class0。
右邊的Class1代表P-Core在每一個(gè)時(shí)鐘內執行的指令數量大于由E-Core來(lái)執行,則會(huì )被歸為Class1,比如一些浮點(diǎn)運算的指令就會(huì )落在Class1的范圍內。
Class2代表P-Core在每個(gè)時(shí)鐘內執行的指令數量遠遠大于由E-Core執行,比如一些AI計算,通常會(huì )歸到Class2當中。
最左邊的Class3是極少部分指令會(huì )落在這一等級上,這里表明Class3的指令中,E-Core每個(gè)時(shí)鐘周期執行的指令數反而會(huì )高于P-Core。
表格會(huì )對每一個(gè)核心打兩個(gè)分數(EE和Perf分),分數最高的就代表著(zhù)英特爾硬件線(xiàn)程調度器對Windows的推薦優(yōu)先級最高。之后Windows會(huì )依據推薦將任務(wù)負載放到分數最高的核心上來(lái)執行。
因此,Meteor Lake的能效設計,包括硬件線(xiàn)程調度器等等,其實(shí)與Windows系統有著(zhù)密不可分的關(guān)系。實(shí)際上英特爾、微軟共同設計實(shí)現了線(xiàn)程調度器這種反饋和控制的機制,然后去做處理器的功耗管理優(yōu)化,并且去實(shí)現功率和性能的最大限度的提高。
因此,Meteor Lake分離式模塊化設計最終能否真正兼顧高性能與低功耗,硬件線(xiàn)程調度器與Windows系統是極其重要的環(huán)節。
·Intel 4制程工藝簡(jiǎn)化制造流程,良率顯著(zhù)提升
在4年5個(gè)制程節點(diǎn)中,Intel 4對于英特爾而言極為重要。因為Intel 4取得成功,就意味著(zhù)從技術(shù)層面英特爾可以非常好地步進(jìn)到接下來(lái)的Intel 3、Intel 20A和Intel 18A三個(gè)制程節點(diǎn)。
Intel 4的主要特性包括:
其一,廣泛采用EUV光刻技術(shù),在滿(mǎn)足DIE變小的同時(shí),大幅度簡(jiǎn)化了制造流程。
其二,CPU高性能邏輯庫面積相比Intel 7縮減約2倍。
其三,相比Intel 7,帶來(lái)了20%的性能和能效比提升,
其四,實(shí)現了更好的頻率和電壓平衡,
其五,進(jìn)一步加大了MIM密度,以提供更高效的底層供電。
接下來(lái)我們對這五項特性逐一作出分析。
Intel 4制程工藝廣泛使用了EVU光刻技術(shù),降低3-倍的處理步驟。從下圖可以看到,在使用EUV技術(shù)的情況下,掩膜總數和工藝步驟總數分別比未使用EUV的Intel 7制程下降20%和5%。而在微縮工藝方面的提升也帶來(lái)了晶體管密度的整體提升。
Intel 4制程帶來(lái)了整個(gè)DIE的集成度變化。下圖可以看到,Intel 7采用408庫高度,而Intel 4切換到了240庫高度。約2倍縮減分別來(lái)自于接觸式柵極間距縮減0.83、鰭片間距縮減0.88、M0間距縮減0.75以及高性能庫高度縮減0.59。
針對CPU,對比Intel 7以及Intel 4帶有6VT和帶有8VT的功率與頻率情況,Intel 4實(shí)現了更低功率情況下更好的頻率表現,相比Intel 7有20%的能效提升。
同時(shí),Meteor Lake連接層針對高性能計算應用進(jìn)行優(yōu)化的18層金屬堆棧上也采用了新技術(shù),廣泛借助EUV,通過(guò)四重自動(dòng)成像工藝,實(shí)現了非常好的層數和密度提升,為布線(xiàn)層也提供了非常好的技術(shù)支持。
除了降低間距之外,如何降低電阻提升導電性的同時(shí),確保更長(cháng)的電遷移壽命也是新制程工藝的一項關(guān)鍵技術(shù)指標。在Intel 7制程節點(diǎn),英特爾采用了不同的特殊金屬層去解決這一問(wèn)題。而Intel 4則是采用了增強型的銅金屬(鉭/鈷與純銅)工藝,實(shí)現電阻降低并延長(cháng)電遷移壽命。
此外,EUV技術(shù)使得Intel 4在連接結構上面變的更加標準化。如下圖所示,對比Intel 7和Intel 4,會(huì )發(fā)現在Intel 7金屬層有很多非標準、非單一的連接模式,而EUV技術(shù)使得Intel 4做的更加統一。這件事的意義在于可以使布局、單元擺放、時(shí)鐘數統一以及布線(xiàn)等方面實(shí)現高效的自動(dòng)化設計。
MIM電容器可提供卓越的供電能力,相對于Intel 7制程工藝,Intel 4的MIM cap密度提高了約2倍,達到了376fF/um2。
基于更加細膩的微縮工藝、更加簡(jiǎn)化的制造步驟、更加標準化的連接模式以及電遷移壽命延長(cháng)和更加健康的電磁可靠性,Intel 4制程工藝獲得了極高的良率,總體超過(guò)了優(yōu)化后的14nm和10nm制程水準線(xiàn)。這也是為什么Intel 4的成功,對于未來(lái)快速過(guò)渡到Intel3、Intel 20A和Intel 18A就越順暢。
·Foveros 3D封裝讓模塊化設計實(shí)現更好的連接
架構與制程之后,我們再來(lái)聊聊Meteor Lake的封裝技術(shù)。
前面我們提到,Meteor Lake采用了全新的分離式模塊化設計,而要讓每個(gè)模塊之間實(shí)現更好的連接,實(shí)現更加高效的協(xié)同性能,就需要通過(guò)更加先進(jìn)的封裝工藝來(lái)實(shí)現。而Meteor Lake所使用的,就是經(jīng)過(guò)多年驗證的Foveros 3D封裝技術(shù),同時(shí)也在不同模塊上使用了2.5D EMIB封裝技術(shù)。
此前,Foveros 3D封裝技術(shù)主要被應用在至強處理器、高密度計算GPU以及FPGA上,而Meteor Lake是英特爾首次大規模將Foveros 3D封裝技術(shù)應用在消費級市場(chǎng)的產(chǎn)品上。
通過(guò)2.5D和3D的混合封裝,可以實(shí)現更高密度的DIE與DIE的封裝,提供不同節點(diǎn)更復雜的連接,同時(shí)可以具備更好的低功耗以及高性能的連接。
那么具體到Meteor Lake,是如何實(shí)現模塊化封裝的呢?
首先,晶圓廠(chǎng)制造好晶圓之后,會(huì )將其運輸到封裝測試工廠(chǎng)進(jìn)行分割和測試。分割晶片完成測試之后,確保只有經(jīng)過(guò)認證的良好晶片最終進(jìn)入到Foveros組裝流程中。
接下來(lái),封裝廠(chǎng)會(huì )將頂部晶片與基礎晶圓通過(guò)高溫進(jìn)行貼合,創(chuàng )建出晶片復合體,之后再將貼合后的晶圓二次分割成封裝所需要的各個(gè)模塊,并通過(guò)環(huán)氧樹(shù)脂貼合到基板上,最后封上金屬散熱器,即可大批量完成Meteor Lake處理器的封裝制造。之后再通過(guò)系統級的測試驗證,將沒(méi)有任何問(wèn)題的成品交付到OEM手中進(jìn)行最終的產(chǎn)品組裝。
在封裝層面,Foveros3D封裝技術(shù),帶來(lái)更好的疊加性以及更高密度。由于在芯片內就已經(jīng)實(shí)現了極低功耗和高密度晶片連接,最小化了分區開(kāi)銷(xiāo),所以能夠為處理器芯片的每個(gè)區塊選擇理想的芯片工藝,且每塊晶圓可獲得10%以上的芯片數量提升,從而降低成本、提高性能、提升晶圓良率。
2.5D EMIB技術(shù)則主要被用于GPU封裝。其底層通過(guò)2.5D實(shí)現計算單元模組的DIE與DIE互連,密度更高,間距更小。同時(shí)混合使用3D封裝技術(shù),將上層DIE與基礎層的DIE連接到一起,進(jìn)一步提升密度的同時(shí),可以在芯片層級降低功耗。
其實(shí)從前面的架構示意圖可以看到,Meteor Lake大體分為4個(gè)模塊,但其實(shí)每個(gè)模塊中又包含了功能不同的小模塊,這些大大小小的模塊,其實(shí)就是通過(guò)2.5D和3D封裝技術(shù)集成到一起的。這就像蓋房子,一磚一瓦的橫向與縱向堆疊,最終構成一整個(gè)建筑主體。
·結語(yǔ)
總體來(lái)說(shuō),英特爾Meteor Lake是第一個(gè)基于Intel 4制程工藝打造的處理器平臺,它在架構層面采用了創(chuàng )新的分離式模塊化設計,并首次將Foveros 3D封裝工藝帶到消費級產(chǎn)品上來(lái)。它改進(jìn)了英特爾硬件線(xiàn)程調度器,優(yōu)化了模塊間的電源管理,借助低功耗的SOC模塊可以讓低負載任務(wù)運行在其上的同時(shí),睡眠甚至關(guān)閉GPU和CPU模塊,以達到降低整體功耗,提升續航能力的需求。
Meteor Lake所對應的產(chǎn)品是第一代酷睿Ultra移動(dòng)級處理器,并不是第14代酷睿處理器,預計發(fā)售檔期在2024年第一季度。