截止目前RTX 4060已經(jīng)發(fā)布,RTX 40系也終于完成了從60-90級別的布局。而70級產(chǎn)品價(jià)格和性能都做到了較好的平衡,是3A游戲玩家的不二之選,今天帶來(lái)的評測為——磐鐳RTX 4070 12GD6X 乾坤OC顯卡。
RTX 4070顯卡定位在開(kāi)啟光追和DLSS的情況下,3A游戲達到2K百幀及以上的水準。它相比RTX 3070 Ti性能提升20%左右,與RTX 3080不分伯仲,并且在光追及DLSS方面要領(lǐng)先RTX 30系顯卡。
磐鐳這張RTX 4070雖然姍姍來(lái)遲,但好事多磨,全新的乾坤系列,讓第一次拿到顯卡的我相當震驚,相信也顛覆了廣大網(wǎng)友對磐鐳的印象。下面我們先來(lái)看看這款磐鐳RTX 4070 乾坤OC的外觀(guān)及設計理念。
1 磐鐳RTX 4070 乾坤OC概覽
首先介紹一下磐鐳RTX 40系顯卡的系列構成。本次評測的乾坤(TAICHI)系列定位中端,在性能與價(jià)格之間取平衡點(diǎn),既有不俗的性能,又在外觀(guān)上有一定的創(chuàng )意,適合于絕大多數游戲用戶(hù)。在其系列之下還有定位高性?xún)r(jià)比的鱗甲(ARMOUR)系列,保障標準性能的同時(shí),簡(jiǎn)化設計。
而在乾坤(TAICHI)系列之上,更有神秘的旗艦燭龍(FIERY)系列,目前尚未推出,但根據官方介紹,仍有令人驚喜的設計,并且進(jìn)一步加強了散熱效能,大家可以期待一下。畢竟這張乾坤系列顯卡的設計水準,已經(jīng)完全超出了大家的預期。
磐鐳RTX 4070 乾坤OC顯卡的包裝正面為產(chǎn)品渲染圖,并且顯卡背景已經(jīng)很明顯的表達了其像素風(fēng)的設計理念。
有意思的是,磐鐳RTX 4070 乾坤OC顯卡采用了一次性封裝,儀式感極強。也保證了每名玩家拿到手的都是新卡無(wú)拆封過(guò)的。
配件中除了常規的說(shuō)明書(shū)保修卡外,還有一張會(huì )員卡和螺絲刀,并且貼心的準備了兩顆機箱擋板螺絲。
磐鐳RTX 4070 乾坤OC整體采用藍白拼色設計,清新淡雅。其實(shí)相較官方解釋的像素風(fēng)格,個(gè)人更傾向于它是,馬賽克風(fēng)格與像素風(fēng)的合體。
雖然兩種風(fēng)格感覺(jué)大體相似,但像素風(fēng)更接近電子游戲和傳統8位視頻游戲的視覺(jué)風(fēng)格,經(jīng)典作品有《超級馬里奧》、《魂斗羅》等。而直至目前,像素風(fēng)游戲仍然以強游戲性和低配置需求,擁有大批忠實(shí)玩家。
馬賽克風(fēng)格通常更具抽象感和藝術(shù)氣息,用于制作數字藝術(shù)、拼貼畫(huà)等工業(yè)設計領(lǐng)域。
所系細看磐鐳RTX 4070 乾坤OC這張顯卡,其實(shí)兩種風(fēng)格的表達都有,屬于用現代工業(yè)設計,呈現了經(jīng)典美術(shù)風(fēng)格。
磐鐳RTX 4070 乾坤OC的整卡尺寸為317×130×53mm,重量約為1.2kg。主動(dòng)散熱采用三個(gè)白色9葉閉環(huán)風(fēng)扇。中間風(fēng)扇中央為像素風(fēng)的“雙蛇”logo設計。
磐鐳RTX 4070 乾坤OC顯卡邊緣采用藍色亮片點(diǎn)綴,在不同光影下,能夠透出內部的空間層次。
同時(shí)乾坤亦謂天地,顯卡首尾點(diǎn)綴各一方,也相當呼應主題。雖然面積不大,但恰到好處。
從這個(gè)側視的角度,能夠看到導流罩的白色像素格并不全都是純磨砂表面,部分格子中仍然有交錯的暗紋。
同時(shí),可以發(fā)現其中一個(gè)格子有著(zhù)類(lèi)似于“三”的文字,這在兩側風(fēng)扇的logo中也有體現。其實(shí)這個(gè)“三”源自于八卦中的乾卦。在整個(gè)磐鐳的英文“PELADN”中,又以“E”為變體展示。
雖然看似導流罩只是一些像素格子,但這張卡確實(shí)“內有乾坤”!
磐鐳RTX 4070 乾坤OC顯卡的側面帶有白色呼吸燈光設計,為顯卡增添了一份別致的韻律感,讓整體外觀(guān)層次感更加豐富。
顯卡邊緣的藍色亮片一直延伸至尾部,猶如盔甲覆于顯卡表面。最右邊的陰刻圖案,根據上面的八卦圖能夠知道為坤卦。天地、首尾呼應,細節滿(mǎn)滿(mǎn)。
磐鐳RTX 4070 乾坤OC的背板采用一體成型金屬背板,表面上布有無(wú)規律排列的方格絲印,并且尾部有大量鏤空處理。
顯卡內部采用全覆蓋高密度散熱鰭片,內建6熱管,對于一張RTX 4070顯卡來(lái)說(shuō),規格足夠。
磐鐳RTX 4070 乾坤OC由于功耗減小,TDP只有200W左右,推薦電源650W,所以采用了單8pin供電。
視頻輸出接口上,采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。
2 NVIDIA GeForce RTX 4070 架構淺析
本次發(fā)布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,采用TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個(gè)晶體管,而在RTX 30系顯卡中為280億個(gè)。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的著(zhù)色器數據吞吐量。
本次發(fā)布的RTX 4070共有5888個(gè)CUDA核心,提供了29-TFLOPS算力;46個(gè)第三代Ada RT Core擁有67 RT-TFLOPS;184個(gè)第四代Tensor Core可提供466 Tensor-TFLOPS。
另外在本次的規格說(shuō)明上,NVIDIA官方也特別表明了L2 Cache容量以及最終的等效帶寬,這是RTX 40在架構中變化比較大的地方,同時(shí)也是玩家對位寬減小有爭議的“罪魁禍首”。
我們以?xún)蓮垐D來(lái)簡(jiǎn)單說(shuō)明L2緩存的作用。
如果把GPU內核比作網(wǎng)店店主,那么L1緩存就是在日常工作的屋子中堆放的可發(fā)貨產(chǎn)品,但由于所有工作都要在這間屋子進(jìn)行,堆放產(chǎn)品的空間有限;所以大部分產(chǎn)品就需要到L2緩存中,它就好比在工作室隔壁的倉庫,雖然需要走出去,但仍然是很近的路程。
如果這個(gè)倉庫還是放不下,那么只能到更遠的顯存中去調取產(chǎn)品。當然如果有爆顯存的情況,那么這位“店主”可能還要打車(chē)去更遠的系統內存區調取數據。
這中間的路程和耗費時(shí)間就好比GPU額外的工作量,如果絕大部分數據只存放在L2緩存就可以拿到,那么將極大節省功耗。并且由于不再需要頻繁調取顯存中的數據,所以顯存位寬適當降低,對于運行效率也是沒(méi)有影響的。
在真正的GPU中,內核是所有計算發(fā)生的地方,而這就是L1數據緩存的作用所在。每個(gè)SM都有一個(gè)超低延遲的L1數據緩存,緊挨其處理內核,使L1成為GPU尋找信息的首選。
然而,由于L1緩存需要離內核非常近,不可能非常大。
如果在L1緩存中找不到內核計算所需的數據,GPU將在L2數據緩存中尋找。這個(gè)顯存系統位于GPU芯片上,并通過(guò)一個(gè)非常高速的橫梁系統連接到所有的GPC(圖形處理集群),每個(gè)GPC包括多個(gè)SM。如果在L2緩存中找到了信息,那么GPU就挑出這些數據并將其放入內核。
如果在L2緩存中找不到信息(被稱(chēng)為緩存缺失),那么GPU將通過(guò)顯存接口在VRAM中尋找。這在整個(gè)GPU存儲子系統中產(chǎn)生了很多額外的工作量,并降低了性能和功耗效率。
其實(shí)如果只對比傳統的光柵性能,RTX 4070的進(jìn)步并沒(méi)有很大,但在A(yíng)I逐漸發(fā)展的今天,需要大量邏輯推理運算,所以可以看到相比30系的Tensor算力,幾乎達到2.7倍的提升。
完整的AD102核心
RTX 4070 Ti使用的AD104核心
RTX 4070使用的AD104核心
本次RTX 4070使用了AD104芯片,采用了4組GPC,其中1組少了1組TPC,并且NVENC單元變?yōu)?個(gè)。
增加L2緩存的大小可以提高性能,降低延遲,并提高續航時(shí)長(cháng),數據訪(fǎng)問(wèn)在GPU上即可完成(否則GPU就要頻繁從顯存讀取數據,過(guò)分依賴(lài)顯存帶寬)。所以,這也是為什么在RTX 40系顯卡中,位寬帶寬普遍偏小的原因。
3 測試平臺簡(jiǎn)介
首先介紹一下測試平臺,為了保障磐鐳RTX 4070 乾坤OC的性能發(fā)揮,我們的平臺也進(jìn)行了全面更新。
下面看一下最新版的GPU-Z信息,RTX 4070采用AD104核心,擁有5888個(gè)CUDA,而此前測試的RTX 4070 Ti為7680個(gè)CUDA,在同系列顯卡中,CUDA數量其實(shí)比較能反應性能強弱,所以簡(jiǎn)單算一下RTX 4070的性能大概相當于RTX 4070 Ti的77%。
磐鐳RTX 4070 乾坤OC的Boost頻率為2505MHz,公版RTX 4070的Boost頻率為2475MHz。
采用12GB GDDR6X顯存,位寬為192bit,顯存帶寬達到了504 GB/s,光柵單元和紋理單元為64和184。
4 理論性能測試
下面先進(jìn)行的是用來(lái)衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實(shí)際測試結果如下:
在針對顯卡DX11性能的3DMARKFS套裝測試中,磐鐳RTX 4070 乾坤OC主要對比上一代RTX 3070 Ti,其中FS提升了26%;FSE提升了20%;FSU提升了9%,綜合來(lái)看相比RTX 3070 Ti的性能提升約為18%。對比RTX 4070 Ti,綜合成績(jì)相差20%左右。
而在針對DX12環(huán)境下的Time Spy和Time Spy Extreme測試中,磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升分別為:TS提升24%;TSE提升17%,綜合下來(lái)約為21%。
PortRoyal是3DMARK中專(zhuān)門(mén)針對光追性能的測試項,磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升約為28%。
綜合來(lái)看,磐鐳RTX 4070 乾坤OC的理論性能相較RTX 3070 Ti的提升約為22%。
Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。
這項測試結合了實(shí)時(shí)光線(xiàn)追蹤和傳統渲染技術(shù)來(lái)測量顯卡性能。場(chǎng)景含有光線(xiàn)追蹤反射、實(shí)時(shí)全局光照、網(wǎng)格著(zhù)色器、體積照明、粒子和后處理效果。
對比RTX 3070 Ti顯卡,從1080p分辨率到4K提升依次為:28%/21%/26%。
另外我們使用3DMARK剛剛更新的DLSS 3進(jìn)行了相關(guān)性能測試。并且由于RTX 3070 Ti無(wú)法開(kāi)啟,所以采用了發(fā)布不久的RTX 4060 Ti。
5 常規游戲 性能測試
?。ㄔ谟螒驕y試中,如有提幀技術(shù),NVIDIA均開(kāi)啟DLSS質(zhì)量模式。)
本次測試我們還增加了剛剛發(fā)布的《無(wú)畏契約》,作為一款競技網(wǎng)游,對于顯卡的要求并不高。我們的測試選擇英雄釋放技能,中等戰斗場(chǎng)面截取平均幀。
磐鐳RTX 4070 乾坤OC顯卡在1080p分辨率下能達到870幀以上的成績(jì),不過(guò)受到CPU瓶頸制約,與2K成績(jì)沒(méi)有拉開(kāi),4K分辨率下,也能穩定在370幀左右。
另外《無(wú)畏契約》游戲內提供了減少延遲技術(shù),所有分辨率測試均開(kāi)啟Reflex + Boost選項,可以看到即便在4K分辨率下,延遲也僅有2.6ms左右。
在《極限競速:地平線(xiàn)5》中,磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti提升明顯,在1080p分辨率下提升達到27%;而在2K分辨率下提升為28%,4K分辨率提升為31%。
《光明記憶:無(wú)限》的光追測試軟件是獨立于游戲的測試工具,比游戲中用到的光線(xiàn)追蹤技術(shù)更多,測試條件為“RTX最高/DLSS質(zhì)量”。所以測試幀數相對較低,但實(shí)際游戲配置相當親民。
磐鐳RTX 4070 乾坤OC相比RTX 3070 Ti在1080p下提升33%;2K下提升26%;4K下提升15%。
在另外一款國產(chǎn)游戲《邊境》的跑分軟件中,情況基本與《光明記憶:無(wú)限》相同,測試條件均在“RTX最高/DLSS質(zhì)量”下進(jìn)行。
在《刺客信條:英靈殿》中,磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti的提升分別為:1080p提升13%;2K提升15%;4K提升20%,綜合提升16%。
在傳統的3A游戲中RTX 4070整體提升并沒(méi)有光追游戲來(lái)的多,所以看來(lái)NVIDIA這些年潛心研究的光追和DLSS還是非常有用的。
最后的測試中本該測一下“跑分軟件”《賽博朋克2077》的,不過(guò)最近游戲更新幾次后,崩潰問(wèn)題愈發(fā)明顯,到現在已經(jīng)完全無(wú)法進(jìn)游戲。所以我們只能看看早先的截圖,體會(huì )一下不同的光影模式。
從上至下依次為超級畫(huà)質(zhì)/光追超級/光追過(guò)載??梢钥吹焦庾愤^(guò)載相比光追超級更貼近于真實(shí)效果。它模擬了真實(shí)的光線(xiàn)路徑,其實(shí)相比之前的光線(xiàn)追蹤模擬了更多光線(xiàn)在不同表面的反射,完整的計算出了場(chǎng)景的真實(shí)光照,避免了上一代光追中出現“死黑”的情況。
這也是NVIDIA致力于打造的下一代光追場(chǎng)景,但是截止目前它對硬件計算的需求太過(guò)龐大,即便是旗艦顯卡,也無(wú)法在4K分辨率下流暢運行。
6 Stable Diffusion AI繪畫(huà)測試
除了游戲之外,AI也是目前大火的領(lǐng)域,尤其以Stable Diffusion為最,現在很多AI生成的圖片完全能夠以假亂真,下面我們也來(lái)測試一下RTX 4070在這方面的表現。
Stable Diffusion可以說(shuō)幾乎沒(méi)有門(mén)檻,但本地部署的繁瑣程度勸退了很多用戶(hù)。上圖為操作界面用戶(hù)可根據自己想要生成的圖片細節豐富關(guān)鍵詞。
按照NVIDIA提供的關(guān)鍵詞,我們生成了10批,共20張圖片,上面挑選了兩幅細節比較合理的進(jìn)行了展示。
RTX 4070運算時(shí)間 2m24.79s 約合 7.2秒一張圖
RTX 3070 Ti運算時(shí)間2m54.34s 約合 8.7秒一張圖
Stable Diffusion對于顯卡的要求比較高,這就需要顯卡擁有較強的Tensor算力。
另外它對于顯存的要求非常高,如果有條件的話(huà)盡量選擇大容量顯存的顯卡。
我們對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時(shí)間,兩款顯卡在生成20張圖片的時(shí)間差距為30秒,差距還是比較大的。
另外我們也測試了使用CPU,在相同設置下生成圖片,但如圖片所示,保守估計需要3小時(shí)30分左右。
并且在使用CPU渲染時(shí)經(jīng)常會(huì )提示內存不足,不過(guò)我們的測試平臺為最旗艦的i9-13900K,內存為D5 7200MHz 32G(16G*2),可見(jiàn)一款趁手的顯卡對于追趕潮流也是很重要的。
7 AV1編碼測試
本次AV1編碼測試選擇了剪映專(zhuān)業(yè)版,它可以輸出H.264/HEVC/AV1三種編碼格式的視頻。
剪映專(zhuān)業(yè)版目前自帶AV1編碼輸出,在實(shí)際測試中,我們導出一段1分鐘左右的視頻??梢钥吹絻蓚€(gè)文件容量相差103MB。
由于A(yíng)V1編碼特性,生成文件的比特率更低,但視頻清晰度則完全相同。所以如果生成同比特率,同容量的文件,AV1將會(huì )更清晰。
我們通過(guò)NVIDIA ICAT來(lái)進(jìn)行兩段視頻的畫(huà)面對比,圖中左側為H.264編碼,右側為AV1編碼。在100%的細節對比中,幾乎看不出任何區別。
8 RTX VSR(RTX Video Super Resolution)測試
目前RTX VSR(RTX Video Super Resolution)已經(jīng)在部分瀏覽器中進(jìn)行測試,首先玩家需要更新到NVIDIA最新驅動(dòng),在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。
RTX VSR是 AI 圖像處理的突破,它超越了傳統的邊緣檢測和特征銳化技術(shù),極大地提升直播視頻內容的質(zhì)量。
開(kāi)啟RTX VSR不僅需要最新版驅動(dòng),還需要使用RTX 40或30系列GPU,并且幾乎適用于Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。
開(kāi)啟后,目前已知的打開(kāi)YouTube或者B站,都可以享受到RTX VSR效果的加成。
如果不確定,在全屏播放視頻時(shí),可以打開(kāi)任務(wù)管理器,看到GPU負載增加,即為開(kāi)啟成功。
?。c(diǎn)擊放大查看原圖)
我們打開(kāi)YouTube隨意觀(guān)看視頻,在打開(kāi)RTX VSR后,可以清晰明顯的看到水下珊瑚的質(zhì)量明顯提高,邊緣更為清晰,并且極大減少了失真現象。
9 溫度及功耗測試
功耗測試中,我們選擇FurMark軟件進(jìn)行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯卡自身。
可以看到磐鐳RTX 4070 乾坤OC這張顯卡對于溫度的控制非常不錯,通過(guò)40分鐘左右的拷機測試,溫度一直控制在61℃左右,熱點(diǎn)溫度在74℃左右。
游戲動(dòng)態(tài)功耗測試
值得一提的是,本次我們在拷機測試中最大板載功耗為200W左右,TDP達到了100%。但在實(shí)際游戲測試中,大部分3A游戲均低于額定功耗。
所以在實(shí)際的使用過(guò)程中,由于不同游戲負載不同,GPU的實(shí)際功耗是動(dòng)態(tài)變化的,類(lèi)似于FPS隨時(shí)間的變化,RTX 40系列很難觸及功耗墻。
磐鐳RTX 4070 乾坤OC 3A游戲平均功耗為187W
RTX 3070 Ti 3A游戲平均功耗為288W
在實(shí)際的游戲功耗測試中,我們選擇《光明記憶:無(wú)限》自帶benchmark,畫(huà)面設置為光追最高、4K分辨率,來(lái)強行拉滿(mǎn)兩張顯卡的性能極限,檢測我們實(shí)際應用場(chǎng)景的功耗。
可以看到兩款顯卡雖然均為70級別,但磐鐳RTX 4070 乾坤OC平均功耗為187W,而RTX 3070 Ti則是288W,低了100W左右,這的確是一個(gè)驚人的成績(jì)。
10 壺中日月 方寸乾坤
磐鐳這款RTX 4070 乾坤OC顯卡整體測試下來(lái),給我最大的感覺(jué)在于外觀(guān)設計上的驚喜,畢竟RTX 4070作為一張5月份發(fā)布的顯卡,性能大家已經(jīng)知悉。
這張顯卡整體融合了像素風(fēng)和馬賽克風(fēng)格,整體看起來(lái)清新淡雅,但卻內藏玄機。尤其是卡身設計中隱藏的“乾坤”概念,不止停留在系列名稱(chēng)上。
性能上,RTX 4070可以在3A游戲中,2K分辨率下達到百幀的成績(jì)。至于4K,目前大部分獨立游戲或者網(wǎng)游也都沒(méi)有問(wèn)題。
在整體RTX 40系顯卡中,最有意義的升級在于功耗下降。中端顯卡采用單8pin供電,這在RTX 30系中還挺讓人奢望的。而且同級別產(chǎn)品功耗下降100W,綜合性能提升20%左右,的確稱(chēng)得上升級迭代。
目前磐鐳RTX 4070 乾坤OC的日常售價(jià)為4599元,參與滿(mǎn)減最終到手4499元。相比官方建議的4799低了300元,還是非常實(shí)惠的,而且它本身的設計,有興趣的朋友不妨看看。
11 附錄1-NVIDIA Ada Lovelace架構解析
Shader Execution Reordering (SER)著(zhù)色器執行重排序
SER主要的作用是提升著(zhù)色器性能,它可以將效率低下的工作負載,動(dòng)態(tài)重組為更高效的工作負載。主要針對光線(xiàn)追蹤的性能提升非常大。
簡(jiǎn)單地說(shuō),GPU在執行類(lèi)似工作的時(shí)候效率最高。但隨著(zhù)光追效果越來(lái)越強大,每個(gè)場(chǎng)景可能有數百萬(wàn)條光線(xiàn)照射在不同材質(zhì)上,而我們知道不同材質(zhì)的反射率,以及反射效果也是不同的。所以這樣就為著(zhù)色器創(chuàng )建了大量的、發(fā)散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門(mén)別類(lèi),動(dòng)態(tài)重組為更高效的工作負載。根據NVIDIA的說(shuō)法,SER可將著(zhù)色器性能最多提升2倍,并將游戲幀率最高提升25%。
舉個(gè)簡(jiǎn)單的例子,當光線(xiàn)第一次從發(fā)射端到碰撞端是非常有規律的射線(xiàn),而碰撞到物體后的二次光追,則會(huì )出現大量發(fā)散的、無(wú)規律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進(jìn)行二次排序,以發(fā)揮出著(zhù)色器的最大性能。
不過(guò)好在這么實(shí)用的功能并不是RTX 40系的專(zhuān)利,它是一個(gè)易于集成的SDK,目前需要游戲開(kāi)發(fā)商集成在游戲中。另外由于它是一個(gè)通用的邏輯,后續也有可能直接集成在Windows的API中,這樣游戲開(kāi)發(fā)者就無(wú)需特意引用,直接調用系統API即可。
可以說(shuō)SER對于手持RTX 20系及以上(能夠開(kāi)啟光線(xiàn)追蹤)的N卡用戶(hù)來(lái)說(shuō),是極大地福音。畢竟免費提升的光追性能,誰(shuí)不喜歡呢。
第三代 RT Cores
RT Core的作用在于更快的光線(xiàn)追蹤計算能力,如果說(shuō)在RTX 30系顯卡中,想要暢享4K高幀率游戲有點(diǎn)吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據NVIDIA的官方說(shuō)法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說(shuō)明,這張4090并非Ada Lovelace架構的最終形態(tài)。
Opacity Micro-Map Engines
在第三代RT Cores中引入了兩個(gè)重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優(yōu)化光線(xiàn)追蹤渲染,可大幅減輕著(zhù)色器的工作負擔。
比如樹(shù)葉之類(lèi)的復雜物體,不同的光線(xiàn)都會(huì )影響它的表現狀態(tài),以及樹(shù)葉之間的光線(xiàn)反彈,所以對于光線(xiàn)追蹤的計算量是巨大的。
不過(guò)Opacity Micro-Map Engines可以將光線(xiàn)追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來(lái),從而極大減輕著(zhù)色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網(wǎng)格置換引擎,它構建光線(xiàn)追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的復雜圖形做簡(jiǎn)化,創(chuàng )造出簡(jiǎn)單的模型,但整體的光線(xiàn)追蹤效果不變。
通過(guò)一些模型數據我們可以具體看到,新的DMM將模型簡(jiǎn)化了多少。原本1100萬(wàn)三角面的模型,經(jīng)過(guò)簡(jiǎn)化后,只有15萬(wàn)左右的微網(wǎng)格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復雜的模型往往優(yōu)化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡(jiǎn)化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在旗艦型號RTX 4090顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬(wàn)億次浮點(diǎn)運算,而petaFLOPs則為千萬(wàn)億次浮點(diǎn)運算。
而在中端的RTX 4070上也達到了驚人的466 Tensor-TFLOPS,相比上一代RTX 3070 Ti,擁有2.7倍左右的提升。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大賣(mài)點(diǎn),從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱(chēng)為神經(jīng)網(wǎng)絡(luò )渲染新時(shí)代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學(xué)多幀生成技術(shù),以生成全新的幀,而不像原來(lái)只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術(shù),能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個(gè)大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術(shù),我們解釋起來(lái)簡(jiǎn)單,但實(shí)施起來(lái)需要大量的推理與演算,以及絕對超前的想法。
不過(guò)“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個(gè)“神經(jīng)網(wǎng)絡(luò )渲染新時(shí)代”的名號??v觀(guān)目前市面上的XeSS、FSR技術(shù),DLSS絕對稱(chēng)得上“巨人的肩膀”。當然,連年的創(chuàng )新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個(gè)連續幀內的光流場(chǎng),能夠捕捉游戲畫(huà)面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動(dòng)矢量和光流來(lái)獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會(huì )捕捉到每一個(gè)像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區域,計算幀之間的差值。
如果說(shuō)原來(lái)DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫(huà)面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發(fā)布會(huì )中說(shuō)到,DLSS 3能夠突破CPU的限制來(lái)提升幀數。
AV1編碼器
本次升級的第八代NVENC編碼器可以說(shuō)是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見(jiàn)的效果就是直播。
相比傳統的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫(huà)質(zhì)將更好。目前大部分直播的分辨率和清晰度,均受限于平臺規定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫(huà)面,采用AV1編碼的清晰度明顯比H.264更高。
說(shuō)起直播,OBS相信大家都不陌生,在10月份即將發(fā)布的補丁中,OBS就加入了對NVENC的AV1編碼支持
當然,直播只是我們更容易見(jiàn)到的AV1優(yōu)勢,在視頻工作的所有環(huán)節,AV1編碼都可以帶來(lái)極大提升。
所以,如圖所見(jiàn)。NVIDIA已經(jīng)為廣大用戶(hù)鋪好了一條完整的生態(tài)鏈,從編碼API、軟件、平臺到播放器,將全面支持AV1編碼。
另外再說(shuō)一下NVIDIA一直強調的在RTX 4070 Ti及以上型號配置的雙AV1編碼。顧名思義,即部分顯卡內搭載了兩個(gè)編碼器,它所帶來(lái)的效果也是顯而易見(jiàn)的。
首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶(hù)不妨親自體驗一下。
除了導出速度,8K 60幀的視頻錄制在以前簡(jiǎn)直難以想象,而雙編碼器的好處就是可以將圖像一分為二,兩個(gè)編碼器分別處理7680×2160的圖像信息,最后拼合完整。
關(guān)于編碼部分,可能大部分用戶(hù)的感受不深,但當有一天,你想錄屏的時(shí)候,卻發(fā)現顯卡不支持,才會(huì )發(fā)覺(jué)它的重要性……
隨著(zhù)圖像逐漸進(jìn)入到超清時(shí)代,硬件編碼和渲染幾乎已經(jīng)成為不可或缺的幫手。雖然論質(zhì)量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫(huà)質(zhì),也要承受時(shí)間的無(wú)窮長(cháng)。甚至在一張8K渲染圖中,兩種編碼方式的時(shí)間差距就已經(jīng)達到了幾個(gè)小時(shí),遑論一段10秒的CG動(dòng)畫(huà)。在不斷進(jìn)步的硬件編碼中,質(zhì)量和時(shí)間也在不斷地被挑戰和刷新。
12 附錄2-Ada Lovelace是誰(shuí)?
Ada Lovelace(1815-1852)是英國數學(xué)家、計算機程序創(chuàng )始人,建立了循環(huán)和子程序概念,被稱(chēng)為世界上第一位程序員。
Ada從小對數學(xué)有極高天賦,其父稱(chēng)她為“平行四邊形公主”,后來(lái)的合作伙伴Charles Babbage稱(chēng)她為“數字女巫”。在19歲時(shí)Ada嫁給了自己曾經(jīng)的科學(xué)家庭教師,婚后的她對數學(xué)熱情不減。
1842年到1843年花了9個(gè)月時(shí)間翻譯了Babbage的《分析機概論》的備忘錄,寫(xiě)了很多注記,其中給出了用計算機進(jìn)行Bernoulli數求解的詳細說(shuō)明。由此,Ada被廣泛認為是世界上第一個(gè)程序員。
而以她名字命名的語(yǔ)言——ada語(yǔ)言,已經(jīng)成為了美國軍方開(kāi)發(fā)戰斗機等尖端武器的語(yǔ)言。
從幾行簡(jiǎn)短的生平簡(jiǎn)介中,不難看出Ada的生命雖然只經(jīng)歷了短暫的37個(gè)春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來(lái)敬傳奇”的slogan。