磐鐳RTX 4070乾坤評測壺中日月方寸乾坤

TIME

2023-07-24 16:10

中關(guān)村在線(xiàn)

分享

　　截止目前RTX 4060已經(jīng)發(fā)布，RTX 40系也終于完成了從60-90級別的布局。而70級產(chǎn)品價(jià)格和性能都做到了較好的平衡，是3A游戲玩家的不二之選，今天帶來(lái)的評測為——磐鐳RTX 4070 12GD6X 乾坤OC顯卡。

　　RTX 4070顯卡定位在開(kāi)啟光追和DLSS的情況下，3A游戲達到2K百幀及以上的水準。它相比RTX 3070 Ti性能提升20%左右，與RTX 3080不分伯仲，并且在光追及DLSS方面要領(lǐng)先RTX 30系顯卡。

　　磐鐳這張RTX 4070雖然姍姍來(lái)遲，但好事多磨，全新的乾坤系列，讓第一次拿到顯卡的我相當震驚，相信也顛覆了廣大網(wǎng)友對磐鐳的印象。下面我們先來(lái)看看這款磐鐳RTX 4070 乾坤OC的外觀(guān)及設計理念。

1 磐鐳RTX 4070 乾坤OC概覽

　　首先介紹一下磐鐳RTX 40系顯卡的系列構成。本次評測的乾坤（TAICHI）系列定位中端，在性能與價(jià)格之間取平衡點(diǎn)，既有不俗的性能，又在外觀(guān)上有一定的創(chuàng )意，適合于絕大多數游戲用戶(hù)。在其系列之下還有定位高性?xún)r(jià)比的鱗甲（ARMOUR）系列，保障標準性能的同時(shí)，簡(jiǎn)化設計。

　　而在乾坤（TAICHI）系列之上，更有神秘的旗艦燭龍（FIERY）系列，目前尚未推出，但根據官方介紹，仍有令人驚喜的設計，并且進(jìn)一步加強了散熱效能，大家可以期待一下。畢竟這張乾坤系列顯卡的設計水準，已經(jīng)完全超出了大家的預期。

　　磐鐳RTX 4070 乾坤OC顯卡的包裝正面為產(chǎn)品渲染圖，并且顯卡背景已經(jīng)很明顯的表達了其像素風(fēng)的設計理念。

　　有意思的是，磐鐳RTX 4070 乾坤OC顯卡采用了一次性封裝，儀式感極強。也保證了每名玩家拿到手的都是新卡無(wú)拆封過(guò)的。

　　配件中除了常規的說(shuō)明書(shū)保修卡外，還有一張會(huì )員卡和螺絲刀，并且貼心的準備了兩顆機箱擋板螺絲。

　　磐鐳RTX 4070 乾坤OC整體采用藍白拼色設計，清新淡雅。其實(shí)相較官方解釋的像素風(fēng)格，個(gè)人更傾向于它是，馬賽克風(fēng)格與像素風(fēng)的合體。

　　雖然兩種風(fēng)格感覺(jué)大體相似，但像素風(fēng)更接近電子游戲和傳統8位視頻游戲的視覺(jué)風(fēng)格，經(jīng)典作品有《超級馬里奧》、《魂斗羅》等。而直至目前，像素風(fēng)游戲仍然以強游戲性和低配置需求，擁有大批忠實(shí)玩家。

　　馬賽克風(fēng)格通常更具抽象感和藝術(shù)氣息，用于制作數字藝術(shù)、拼貼畫(huà)等工業(yè)設計領(lǐng)域。

　　所系細看磐鐳RTX 4070 乾坤OC這張顯卡，其實(shí)兩種風(fēng)格的表達都有，屬于用現代工業(yè)設計，呈現了經(jīng)典美術(shù)風(fēng)格。

　　磐鐳RTX 4070 乾坤OC的整卡尺寸為317×130×53mm，重量約為1.2kg。主動(dòng)散熱采用三個(gè)白色9葉閉環(huán)風(fēng)扇。中間風(fēng)扇中央為像素風(fēng)的“雙蛇”logo設計。

　　磐鐳RTX 4070 乾坤OC顯卡邊緣采用藍色亮片點(diǎn)綴，在不同光影下，能夠透出內部的空間層次。

　　同時(shí)乾坤亦謂天地，顯卡首尾點(diǎn)綴各一方，也相當呼應主題。雖然面積不大，但恰到好處。

　　從這個(gè)側視的角度，能夠看到導流罩的白色像素格并不全都是純磨砂表面，部分格子中仍然有交錯的暗紋。

　　同時(shí)，可以發(fā)現其中一個(gè)格子有著(zhù)類(lèi)似于“三”的文字，這在兩側風(fēng)扇的logo中也有體現。其實(shí)這個(gè)“三”源自于八卦中的乾卦。在整個(gè)磐鐳的英文“PELADN”中，又以“E”為變體展示。

　　雖然看似導流罩只是一些像素格子，但這張卡確實(shí)“內有乾坤”！

　　磐鐳RTX 4070 乾坤OC顯卡的側面帶有白色呼吸燈光設計，為顯卡增添了一份別致的韻律感，讓整體外觀(guān)層次感更加豐富。

　　顯卡邊緣的藍色亮片一直延伸至尾部，猶如盔甲覆于顯卡表面。最右邊的陰刻圖案，根據上面的八卦圖能夠知道為坤卦。天地、首尾呼應，細節滿(mǎn)滿(mǎn)。

　　磐鐳RTX 4070 乾坤OC的背板采用一體成型金屬背板，表面上布有無(wú)規律排列的方格絲印，并且尾部有大量鏤空處理。

　　顯卡內部采用全覆蓋高密度散熱鰭片，內建6熱管，對于一張RTX 4070顯卡來(lái)說(shuō)，規格足夠。

　　磐鐳RTX 4070 乾坤OC由于功耗減小，TDP只有200W左右，推薦電源650W，所以采用了單8pin供電。

　　視頻輸出接口上，采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。

2 NVIDIA GeForce RTX 4070 架構淺析

　　本次發(fā)布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造，采用TSMC 4N NVIDIA定制工藝，旗艦核心AD102達到了恐怖的760億個(gè)晶體管，而在RTX 30系顯卡中為280億個(gè)。

　　與上一代NVIDIA Ampere相比，NVIDIA Ada Lovelace在相同功率下，具有2倍以上的性能提升，最高可達到90-TFLOPS的著(zhù)色器數據吞吐量。

　　本次發(fā)布的RTX 4070共有5888個(gè)CUDA核心，提供了29-TFLOPS算力；46個(gè)第三代Ada RT Core擁有67 RT-TFLOPS；184個(gè)第四代Tensor Core可提供466 Tensor-TFLOPS。

　　另外在本次的規格說(shuō)明上，NVIDIA官方也特別表明了L2 Cache容量以及最終的等效帶寬，這是RTX 40在架構中變化比較大的地方，同時(shí)也是玩家對位寬減小有爭議的“罪魁禍首”。

　　我們以?xún)蓮垐D來(lái)簡(jiǎn)單說(shuō)明L2緩存的作用。

　　如果把GPU內核比作網(wǎng)店店主，那么L1緩存就是在日常工作的屋子中堆放的可發(fā)貨產(chǎn)品，但由于所有工作都要在這間屋子進(jìn)行，堆放產(chǎn)品的空間有限；所以大部分產(chǎn)品就需要到L2緩存中，它就好比在工作室隔壁的倉庫，雖然需要走出去，但仍然是很近的路程。

　　如果這個(gè)倉庫還是放不下，那么只能到更遠的顯存中去調取產(chǎn)品。當然如果有爆顯存的情況，那么這位“店主”可能還要打車(chē)去更遠的系統內存區調取數據。

　　這中間的路程和耗費時(shí)間就好比GPU額外的工作量，如果絕大部分數據只存放在L2緩存就可以拿到，那么將極大節省功耗。并且由于不再需要頻繁調取顯存中的數據，所以顯存位寬適當降低，對于運行效率也是沒(méi)有影響的。

　　在真正的GPU中，內核是所有計算發(fā)生的地方，而這就是L1數據緩存的作用所在。每個(gè)SM都有一個(gè)超低延遲的L1數據緩存，緊挨其處理內核，使L1成為GPU尋找信息的首選。

　　然而，由于L1緩存需要離內核非常近，不可能非常大。

　　如果在L1緩存中找不到內核計算所需的數據，GPU將在L2數據緩存中尋找。這個(gè)顯存系統位于GPU芯片上，并通過(guò)一個(gè)非常高速的橫梁系統連接到所有的GPC（圖形處理集群），每個(gè)GPC包括多個(gè)SM。如果在L2緩存中找到了信息，那么GPU就挑出這些數據并將其放入內核。

　　如果在L2緩存中找不到信息（被稱(chēng)為緩存缺失），那么GPU將通過(guò)顯存接口在VRAM中尋找。這在整個(gè)GPU存儲子系統中產(chǎn)生了很多額外的工作量，并降低了性能和功耗效率。

　　其實(shí)如果只對比傳統的光柵性能，RTX 4070的進(jìn)步并沒(méi)有很大，但在A(yíng)I逐漸發(fā)展的今天，需要大量邏輯推理運算，所以可以看到相比30系的Tensor算力，幾乎達到2.7倍的提升。

　　完整的AD102核心

　　RTX 4070 Ti使用的AD104核心

　　RTX 4070使用的AD104核心

　　本次RTX 4070使用了AD104芯片，采用了4組GPC，其中1組少了1組TPC，并且NVENC單元變?yōu)?個(gè)。

　　增加L2緩存的大小可以提高性能，降低延遲，并提高續航時(shí)長(cháng)，數據訪(fǎng)問(wèn)在GPU上即可完成（否則GPU就要頻繁從顯存讀取數據，過(guò)分依賴(lài)顯存帶寬）。所以，這也是為什么在RTX 40系顯卡中，位寬帶寬普遍偏小的原因。

3 測試平臺簡(jiǎn)介

　　首先介紹一下測試平臺，為了保障磐鐳RTX 4070 乾坤OC的性能發(fā)揮，我們的平臺也進(jìn)行了全面更新。

　　下面看一下最新版的GPU-Z信息，RTX 4070采用AD104核心，擁有5888個(gè)CUDA，而此前測試的RTX 4070 Ti為7680個(gè)CUDA，在同系列顯卡中，CUDA數量其實(shí)比較能反應性能強弱，所以簡(jiǎn)單算一下RTX 4070的性能大概相當于RTX 4070 Ti的77%。

　　磐鐳RTX 4070 乾坤OC的Boost頻率為2505MHz，公版RTX 4070的Boost頻率為2475MHz。

　　采用12GB GDDR6X顯存，位寬為192bit，顯存帶寬達到了504 GB/s，光柵單元和紋理單元為64和184。

4 理論性能測試

　　下面先進(jìn)行的是用來(lái)衡量顯卡DX11理論性能的3DMARKFS套裝：FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能，取顯卡分數實(shí)際測試結果如下：

　　在針對顯卡DX11性能的3DMARKFS套裝測試中，磐鐳RTX 4070 乾坤OC主要對比上一代RTX 3070 Ti，其中FS提升了26%；FSE提升了20%；FSU提升了9%，綜合來(lái)看相比RTX 3070 Ti的性能提升約為18%。對比RTX 4070 Ti，綜合成績(jì)相差20%左右。

　　而在針對DX12環(huán)境下的Time Spy和Time Spy Extreme測試中，磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升分別為：TS提升24%；TSE提升17%，綜合下來(lái)約為21%。

　　PortRoyal是3DMARK中專(zhuān)門(mén)針對光追性能的測試項，磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升約為28%。

　　綜合來(lái)看，磐鐳RTX 4070 乾坤OC的理論性能相較RTX 3070 Ti的提升約為22%。

　　Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試，顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。

　　這項測試結合了實(shí)時(shí)光線(xiàn)追蹤和傳統渲染技術(shù)來(lái)測量顯卡性能。場(chǎng)景含有光線(xiàn)追蹤反射、實(shí)時(shí)全局光照、網(wǎng)格著(zhù)色器、體積照明、粒子和后處理效果。

　　對比RTX 3070 Ti顯卡，從1080p分辨率到4K提升依次為：28%/21%/26%。

　　另外我們使用3DMARK剛剛更新的DLSS 3進(jìn)行了相關(guān)性能測試。并且由于RTX 3070 Ti無(wú)法開(kāi)啟，所以采用了發(fā)布不久的RTX 4060 Ti。

5 常規游戲性能測試

　?。ㄔ谟螒驕y試中，如有提幀技術(shù)，NVIDIA均開(kāi)啟DLSS質(zhì)量模式。）

　　本次測試我們還增加了剛剛發(fā)布的《無(wú)畏契約》，作為一款競技網(wǎng)游，對于顯卡的要求并不高。我們的測試選擇英雄釋放技能，中等戰斗場(chǎng)面截取平均幀。

　　磐鐳RTX 4070 乾坤OC顯卡在1080p分辨率下能達到870幀以上的成績(jì)，不過(guò)受到CPU瓶頸制約，與2K成績(jì)沒(méi)有拉開(kāi)，4K分辨率下，也能穩定在370幀左右。

　　另外《無(wú)畏契約》游戲內提供了減少延遲技術(shù)，所有分辨率測試均開(kāi)啟Reflex + Boost選項，可以看到即便在4K分辨率下，延遲也僅有2.6ms左右。

　　在《極限競速：地平線(xiàn)5》中，磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti提升明顯，在1080p分辨率下提升達到27%；而在2K分辨率下提升為28%，4K分辨率提升為31%。

　　《光明記憶：無(wú)限》的光追測試軟件是獨立于游戲的測試工具，比游戲中用到的光線(xiàn)追蹤技術(shù)更多，測試條件為“RTX最高/DLSS質(zhì)量”。所以測試幀數相對較低，但實(shí)際游戲配置相當親民。

　　磐鐳RTX 4070 乾坤OC相比RTX 3070 Ti在1080p下提升33%；2K下提升26%；4K下提升15%。

　　在另外一款國產(chǎn)游戲《邊境》的跑分軟件中，情況基本與《光明記憶：無(wú)限》相同，測試條件均在“RTX最高/DLSS質(zhì)量”下進(jìn)行。

　　在《刺客信條：英靈殿》中，磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti的提升分別為：1080p提升13%；2K提升15%；4K提升20%，綜合提升16%。

　　在傳統的3A游戲中RTX 4070整體提升并沒(méi)有光追游戲來(lái)的多，所以看來(lái)NVIDIA這些年潛心研究的光追和DLSS還是非常有用的。

　　最后的測試中本該測一下“跑分軟件”《賽博朋克2077》的，不過(guò)最近游戲更新幾次后，崩潰問(wèn)題愈發(fā)明顯，到現在已經(jīng)完全無(wú)法進(jìn)游戲。所以我們只能看看早先的截圖，體會(huì )一下不同的光影模式。

　　從上至下依次為超級畫(huà)質(zhì)/光追超級/光追過(guò)載?？梢钥吹焦庾愤^(guò)載相比光追超級更貼近于真實(shí)效果。它模擬了真實(shí)的光線(xiàn)路徑，其實(shí)相比之前的光線(xiàn)追蹤模擬了更多光線(xiàn)在不同表面的反射，完整的計算出了場(chǎng)景的真實(shí)光照，避免了上一代光追中出現“死黑”的情況。

　　這也是NVIDIA致力于打造的下一代光追場(chǎng)景，但是截止目前它對硬件計算的需求太過(guò)龐大，即便是旗艦顯卡，也無(wú)法在4K分辨率下流暢運行。

6 Stable Diffusion AI繪畫(huà)測試

　　除了游戲之外，AI也是目前大火的領(lǐng)域，尤其以Stable Diffusion為最，現在很多AI生成的圖片完全能夠以假亂真，下面我們也來(lái)測試一下RTX 4070在這方面的表現。

　　Stable Diffusion可以說(shuō)幾乎沒(méi)有門(mén)檻，但本地部署的繁瑣程度勸退了很多用戶(hù)。上圖為操作界面用戶(hù)可根據自己想要生成的圖片細節豐富關(guān)鍵詞。

　　按照NVIDIA提供的關(guān)鍵詞，我們生成了10批，共20張圖片，上面挑選了兩幅細節比較合理的進(jìn)行了展示。

　　RTX 4070運算時(shí)間 2m24.79s 約合 7.2秒一張圖

　　RTX 3070 Ti運算時(shí)間2m54.34s 約合 8.7秒一張圖

　　Stable Diffusion對于顯卡的要求比較高，這就需要顯卡擁有較強的Tensor算力。

　　另外它對于顯存的要求非常高，如果有條件的話(huà)盡量選擇大容量顯存的顯卡。

　　我們對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時(shí)間，兩款顯卡在生成20張圖片的時(shí)間差距為30秒，差距還是比較大的。

　　另外我們也測試了使用CPU，在相同設置下生成圖片，但如圖片所示，保守估計需要3小時(shí)30分左右。

　　并且在使用CPU渲染時(shí)經(jīng)常會(huì )提示內存不足，不過(guò)我們的測試平臺為最旗艦的i9-13900K，內存為D5 7200MHz 32G（16G*2），可見(jiàn)一款趁手的顯卡對于追趕潮流也是很重要的。

7 AV1編碼測試

　　本次AV1編碼測試選擇了剪映專(zhuān)業(yè)版，它可以輸出H.264/HEVC/AV1三種編碼格式的視頻。

　　剪映專(zhuān)業(yè)版目前自帶AV1編碼輸出，在實(shí)際測試中，我們導出一段1分鐘左右的視頻?？梢钥吹絻蓚€(gè)文件容量相差103MB。

　　由于A(yíng)V1編碼特性，生成文件的比特率更低，但視頻清晰度則完全相同。所以如果生成同比特率，同容量的文件，AV1將會(huì )更清晰。

　　我們通過(guò)NVIDIA ICAT來(lái)進(jìn)行兩段視頻的畫(huà)面對比，圖中左側為H.264編碼，右側為AV1編碼。在100%的細節對比中，幾乎看不出任何區別。

8 RTX VSR（RTX Video Super Resolution）測試

　　目前RTX VSR（RTX Video Super Resolution）已經(jīng)在部分瀏覽器中進(jìn)行測試，首先玩家需要更新到NVIDIA最新驅動(dòng)，在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。

　　RTX VSR是 AI 圖像處理的突破，它超越了傳統的邊緣檢測和特征銳化技術(shù)，極大地提升直播視頻內容的質(zhì)量。

　　開(kāi)啟RTX VSR不僅需要最新版驅動(dòng)，還需要使用RTX 40或30系列GPU，并且幾乎適用于Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容（瀏覽器也需要更新到最新版本）。

　　開(kāi)啟后，目前已知的打開(kāi)YouTube或者B站，都可以享受到RTX VSR效果的加成。

　　如果不確定，在全屏播放視頻時(shí)，可以打開(kāi)任務(wù)管理器，看到GPU負載增加，即為開(kāi)啟成功。

　?。c(diǎn)擊放大查看原圖）

　　我們打開(kāi)YouTube隨意觀(guān)看視頻，在打開(kāi)RTX VSR后，可以清晰明顯的看到水下珊瑚的質(zhì)量明顯提高，邊緣更為清晰，并且極大減少了失真現象。

9 溫度及功耗測試

　　功耗測試中，我們選擇FurMark軟件進(jìn)行拷機測試，并采用GPU-Z檢測溫度，功耗僅計算顯卡自身。

　　可以看到磐鐳RTX 4070 乾坤OC這張顯卡對于溫度的控制非常不錯，通過(guò)40分鐘左右的拷機測試，溫度一直控制在61℃左右，熱點(diǎn)溫度在74℃左右。

　　游戲動(dòng)態(tài)功耗測試

　　值得一提的是，本次我們在拷機測試中最大板載功耗為200W左右，TDP達到了100%。但在實(shí)際游戲測試中，大部分3A游戲均低于額定功耗。

　　所以在實(shí)際的使用過(guò)程中，由于不同游戲負載不同，GPU的實(shí)際功耗是動(dòng)態(tài)變化的，類(lèi)似于FPS隨時(shí)間的變化，RTX 40系列很難觸及功耗墻。

　　磐鐳RTX 4070 乾坤OC 3A游戲平均功耗為187W

　　RTX 3070 Ti 3A游戲平均功耗為288W

　　在實(shí)際的游戲功耗測試中，我們選擇《光明記憶：無(wú)限》自帶benchmark，畫(huà)面設置為光追最高、4K分辨率，來(lái)強行拉滿(mǎn)兩張顯卡的性能極限，檢測我們實(shí)際應用場(chǎng)景的功耗。

　　可以看到兩款顯卡雖然均為70級別，但磐鐳RTX 4070 乾坤OC平均功耗為187W，而RTX 3070 Ti則是288W，低了100W左右，這的確是一個(gè)驚人的成績(jì)。

10 壺中日月方寸乾坤

　　磐鐳這款RTX 4070 乾坤OC顯卡整體測試下來(lái)，給我最大的感覺(jué)在于外觀(guān)設計上的驚喜，畢竟RTX 4070作為一張5月份發(fā)布的顯卡，性能大家已經(jīng)知悉。

　　這張顯卡整體融合了像素風(fēng)和馬賽克風(fēng)格，整體看起來(lái)清新淡雅，但卻內藏玄機。尤其是卡身設計中隱藏的“乾坤”概念，不止停留在系列名稱(chēng)上。

　　性能上，RTX 4070可以在3A游戲中，2K分辨率下達到百幀的成績(jì)。至于4K，目前大部分獨立游戲或者網(wǎng)游也都沒(méi)有問(wèn)題。

　　在整體RTX 40系顯卡中，最有意義的升級在于功耗下降。中端顯卡采用單8pin供電，這在RTX 30系中還挺讓人奢望的。而且同級別產(chǎn)品功耗下降100W，綜合性能提升20%左右，的確稱(chēng)得上升級迭代。

　　目前磐鐳RTX 4070 乾坤OC的日常售價(jià)為4599元，參與滿(mǎn)減最終到手4499元。相比官方建議的4799低了300元，還是非常實(shí)惠的，而且它本身的設計，有興趣的朋友不妨看看。

11 附錄1-NVIDIA Ada Lovelace架構解析

　　Shader Execution Reordering （SER）著(zhù)色器執行重排序

　　SER主要的作用是提升著(zhù)色器性能，它可以將效率低下的工作負載，動(dòng)態(tài)重組為更高效的工作負載。主要針對光線(xiàn)追蹤的性能提升非常大。

　　簡(jiǎn)單地說(shuō)，GPU在執行類(lèi)似工作的時(shí)候效率最高。但隨著(zhù)光追效果越來(lái)越強大，每個(gè)場(chǎng)景可能有數百萬(wàn)條光線(xiàn)照射在不同材質(zhì)上，而我們知道不同材質(zhì)的反射率，以及反射效果也是不同的。所以這樣就為著(zhù)色器創(chuàng )建了大量的、發(fā)散的，效率低下的工作負載。

　　SER則可以將這些雜亂的指令重新分門(mén)別類(lèi)，動(dòng)態(tài)重組為更高效的工作負載。根據NVIDIA的說(shuō)法，SER可將著(zhù)色器性能最多提升2倍，并將游戲幀率最高提升25%。

　　舉個(gè)簡(jiǎn)單的例子，當光線(xiàn)第一次從發(fā)射端到碰撞端是非常有規律的射線(xiàn)，而碰撞到物體后的二次光追，則會(huì )出現大量發(fā)散的、無(wú)規律的反射，這對于光追負載是非常高的。而從圖中便能看到，SER可以將這些指令進(jìn)行二次排序，以發(fā)揮出著(zhù)色器的最大性能。

　　不過(guò)好在這么實(shí)用的功能并不是RTX 40系的專(zhuān)利，它是一個(gè)易于集成的SDK，目前需要游戲開(kāi)發(fā)商集成在游戲中。另外由于它是一個(gè)通用的邏輯，后續也有可能直接集成在Windows的API中，這樣游戲開(kāi)發(fā)者就無(wú)需特意引用，直接調用系統API即可。

　　可以說(shuō)SER對于手持RTX 20系及以上（能夠開(kāi)啟光線(xiàn)追蹤）的N卡用戶(hù)來(lái)說(shuō)，是極大地福音。畢竟免費提升的光追性能，誰(shuí)不喜歡呢。

　　第三代 RT Cores

　　RT Core的作用在于更快的光線(xiàn)追蹤計算能力，如果說(shuō)在RTX 30系顯卡中，想要暢享4K高幀率游戲有點(diǎn)吃力，那么RTX 40系顯卡中，將顯得輕而易舉。

　　在GeForce RTX 4090這張顯卡上，達到了191 RT-TFLOPs的處理能力，而RTX 30系顯卡最快處理能力為78 RT-TFLOPs，足足為2.4倍。并且根據NVIDIA的官方說(shuō)法，第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說(shuō)明，這張4090并非Ada Lovelace架構的最終形態(tài)。

　　Opacity Micro-Map Engines

　　在第三代RT Cores中引入了兩個(gè)重要的硬件單元，首先是Opacity Micro-Map Engines，可以理解為微映射透明度引擎，它主要的作用是優(yōu)化光線(xiàn)追蹤渲染，可大幅減輕著(zhù)色器的工作負擔。

　　比如樹(shù)葉之類(lèi)的復雜物體，不同的光線(xiàn)都會(huì )影響它的表現狀態(tài)，以及樹(shù)葉之間的光線(xiàn)反彈，所以對于光線(xiàn)追蹤的計算量是巨大的。

　　不過(guò)Opacity Micro-Map Engines可以將光線(xiàn)追蹤特性烘焙到不透明蒙版中，所以那些不規則形狀和半透明的對象，也就能夠更快更精準的渲染出來(lái)，從而極大減輕著(zhù)色器的工作負擔。

　　Displaced Micro-Mesh Engines（DMM）

　　Displaced Micro-Mesh Engines可理解為微網(wǎng)格置換引擎，它構建光線(xiàn)追蹤的BVH（Bounding volume hierarchy）的速度提高了10倍！所使用的的顯存減少了20倍！

　　DMM由第三代RT core本地處理，與前幾代相比，它只使用基本三角形渲染復雜幾何圖形，極大減少了存儲和處理需求。

　　具體的工作原理從圖中一目了然，新的DMM可以將面數非常多的復雜圖形做簡(jiǎn)化，創(chuàng )造出簡(jiǎn)單的模型，但整體的光線(xiàn)追蹤效果不變。

　　通過(guò)一些模型數據我們可以具體看到，新的DMM將模型簡(jiǎn)化了多少。原本1100萬(wàn)三角面的模型，經(jīng)過(guò)簡(jiǎn)化后，只有15萬(wàn)左右的微網(wǎng)格，BVH的構建速度提升了8.5倍，小了6.5倍。

　　而這還不是最夸張的，越復雜的模型往往優(yōu)化的效果越好，在官方展示的這幾組對比示例中，最快可提升大于15倍的速度，容量簡(jiǎn)化20倍的模型。

　　第四代 Tensor Cores

　　除了光追單元的升級外，第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎，在旗艦型號RTX 4090顯卡上，吞吐量達到了1.32 Tensor petaFLOPs，提高了5倍。

　　注意這里的單位——petaFLOPs。以往的TFLOPs為萬(wàn)億次浮點(diǎn)運算，而petaFLOPs則為千萬(wàn)億次浮點(diǎn)運算。

　　而在中端的RTX 4070上也達到了驚人的466 Tensor-TFLOPS，相比上一代RTX 3070 Ti，擁有2.7倍左右的提升。

　　DLSS 3

　　本次推出的DLSS 3也是RTX 40系一大賣(mài)點(diǎn)，從DLSS 2.3直接邁入了DLSS 3版本，也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱(chēng)為神經(jīng)網(wǎng)絡(luò )渲染新時(shí)代。

　　全新的DLSS 3在原有的DLSS超分辨率的基礎上，添加了光學(xué)多幀生成技術(shù)，以生成全新的幀，而不像原來(lái)只能生成像素。

　　DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術(shù)，能夠重建八分之七的像素，極大提高性能。

　　在GPU受限的游戲中，比如2K分辨率及以上的更高分辨率，DLSS 2能夠將幀率提高2倍，DLSS 3則能夠提升4倍。

　　本次DLSS 3跨越了一個(gè)大版本，從想法和原理上也再度升級，完全“猜想”1幀的技術(shù)，我們解釋起來(lái)簡(jiǎn)單，但實(shí)施起來(lái)需要大量的推理與演算，以及絕對超前的想法。

　　不過(guò)“憑空”生成的1幀，在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中，捆綁了NVIDIA Reflex，可以有效幫助減小延遲。

　　這也不負NVIDIA給它起了個(gè)“神經(jīng)網(wǎng)絡(luò )渲染新時(shí)代”的名號?？v觀(guān)目前市面上的XeSS、FSR技術(shù)，DLSS絕對稱(chēng)得上“巨人的肩膀”。當然，連年的創(chuàng )新，苦的是手持上一代顯卡的玩家，想體驗DLSS 3的幀生成，目前唯一的辦法就是購入一張RTX 40系顯卡。

　　New Optical Flow Accelerator

　　New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的，這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。

　　光流加速器在原本DLSS 2的基礎上，還可以計算兩個(gè)連續幀內的光流場(chǎng)，能夠捕捉游戲畫(huà)面從第1幀到第2幀的方向和速度，從中捕捉粒子、反射和光照等像素信息。并分別計算運動(dòng)矢量和光流來(lái)獲得精準的陰影重建效果。

　　以《賽博朋克2077》為例，在第一幀，光流加速器會(huì )捕捉到每一個(gè)像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區域，計算幀之間的差值。

　　如果說(shuō)原來(lái)DLSS 2能夠“猜”出一張圖剩下的像素，那么DLSS 3除了這些，還能夠“猜”出下一幀的畫(huà)面。

　　另外由于DLSS 3的幀生成是在GPU中處理和運行的，所以即使遇到CPU瓶頸的游戲，AI同樣能夠提升幀率。這也是為什么在此次發(fā)布會(huì )中說(shuō)到，DLSS 3能夠突破CPU的限制來(lái)提升幀數。

　　AV1編碼器

　　本次升級的第八代NVENC編碼器可以說(shuō)是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持，最顯而易見(jiàn)的效果就是直播。

　　相比傳統的H.264編碼，AV1編碼的效率平均提升了40%，在同碼率下AV1編碼的畫(huà)質(zhì)將更好。目前大部分直播的分辨率和清晰度，均受限于平臺規定的最大比特率。以Twitch限制的8Mbps為例，可以看到在同等帶寬下，同為2K 60幀的畫(huà)面，采用AV1編碼的清晰度明顯比H.264更高。

　　說(shuō)起直播，OBS相信大家都不陌生，在10月份即將發(fā)布的補丁中，OBS就加入了對NVENC的AV1編碼支持

　　當然，直播只是我們更容易見(jiàn)到的AV1優(yōu)勢，在視頻工作的所有環(huán)節，AV1編碼都可以帶來(lái)極大提升。

　　所以，如圖所見(jiàn)。NVIDIA已經(jīng)為廣大用戶(hù)鋪好了一條完整的生態(tài)鏈，從編碼API、軟件、平臺到播放器，將全面支持AV1編碼。

　　另外再說(shuō)一下NVIDIA一直強調的在RTX 4070 Ti及以上型號配置的雙AV1編碼。顧名思義，即部分顯卡內搭載了兩個(gè)編碼器，它所帶來(lái)的效果也是顯而易見(jiàn)的。

　　首先，根據官方宣傳的，在4K H.265的導出速度上，RTX 4090是RTX 3090 Ti的2.2倍；在8K H.265的導出速度上更是達到了2.5倍。這部分的提升，大家常用的剪映同樣適用，感興趣的用戶(hù)不妨親自體驗一下。

　　除了導出速度，8K 60幀的視頻錄制在以前簡(jiǎn)直難以想象，而雙編碼器的好處就是可以將圖像一分為二，兩個(gè)編碼器分別處理7680×2160的圖像信息，最后拼合完整。

　　關(guān)于編碼部分，可能大部分用戶(hù)的感受不深，但當有一天，你想錄屏的時(shí)候，卻發(fā)現顯卡不支持，才會(huì )發(fā)覺(jué)它的重要性……

　　隨著(zhù)圖像逐漸進(jìn)入到超清時(shí)代，硬件編碼和渲染幾乎已經(jīng)成為不可或缺的幫手。雖然論質(zhì)量，硬件編碼仍不及CPU軟編，但軟編做到了極限畫(huà)質(zhì)，也要承受時(shí)間的無(wú)窮長(cháng)。甚至在一張8K渲染圖中，兩種編碼方式的時(shí)間差距就已經(jīng)達到了幾個(gè)小時(shí)，遑論一段10秒的CG動(dòng)畫(huà)。在不斷進(jìn)步的硬件編碼中，質(zhì)量和時(shí)間也在不斷地被挑戰和刷新。

12 附錄2-Ada Lovelace是誰(shuí)？

　　Ada Lovelace（1815-1852）是英國數學(xué)家、計算機程序創(chuàng )始人，建立了循環(huán)和子程序概念，被稱(chēng)為世界上第一位程序員。

　　Ada從小對數學(xué)有極高天賦，其父稱(chēng)她為“平行四邊形公主”，后來(lái)的合作伙伴Charles Babbage稱(chēng)她為“數字女巫”。在19歲時(shí)Ada嫁給了自己曾經(jīng)的科學(xué)家庭教師，婚后的她對數學(xué)熱情不減。

　　1842年到1843年花了9個(gè)月時(shí)間翻譯了Babbage的《分析機概論》的備忘錄，寫(xiě)了很多注記，其中給出了用計算機進(jìn)行Bernoulli數求解的詳細說(shuō)明。由此，Ada被廣泛認為是世界上第一個(gè)程序員。

　　而以她名字命名的語(yǔ)言——ada語(yǔ)言，已經(jīng)成為了美國軍方開(kāi)發(fā)戰斗機等尖端武器的語(yǔ)言。

　　從幾行簡(jiǎn)短的生平簡(jiǎn)介中，不難看出Ada的生命雖然只經(jīng)歷了短暫的37個(gè)春秋，但卻足以被后人銘記。

　　這也是為什么此次NVIDIA RTX 40的先行宣傳中，用到了“以未來(lái)敬傳奇”的slogan。

THE END

免責聲明：本文系轉載，版權歸原作者所有；刊載之目的為傳播更多信息，如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

報告顯示全球社交網(wǎng)絡(luò )用戶(hù)近50億

　　新華社北京7月23日電《參考消息》日前刊登法新社報道《報告顯示：全球社交網(wǎng)絡(luò )用戶(hù)近50億》。報道摘要如下：　　根據每季度發(fā)布的互聯(lián)網(wǎng)狀況統計報告，近50億人（48.8億）活...

互聯(lián)網(wǎng)

iPhone15或將采用疊層電池

　　近日，有消息稱(chēng)，為了提高iPhone15系列的電池的續航表現，蘋(píng)果計劃采用耐久的疊層電池技術(shù)。這種電池技術(shù)可以降低發(fā)熱量，延長(cháng)整體電池壽命，并且能夠提供更多可用電量以及...

手機

最新文章

相關(guān)推薦

東京奧運會(huì )中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

微信顯示“正在輸入”，其實(shí)不是在回復消息，背后原因挺“傷人”

兩名航天員成功出艙航天員劉伯明成功開(kāi)啟天和核心艙節點(diǎn)艙出艙艙門(mén)

科技世界網(wǎng)創(chuàng )立于2009年，宗旨是科技創(chuàng )造財富，網(wǎng)絡(luò )改變世界。多年來(lái)力爭通過(guò)自主創(chuàng )新的技術(shù)實(shí)現為科技企業(yè)創(chuàng )造最大的價(jià)值。

關(guān)于我們 | 聯(lián)系我們 | 版權申明 | 投稿須知 | 網(wǎng)站地圖

認證聯(lián)盟：創(chuàng )宇信用百度企業(yè)

內容投訴：gold_ant@qq.com

數據合作：阿里云科協(xié)產(chǎn)業(yè)園

增值許可證：遼B2-20150256

關(guān)注我們

科技世界官方百家號

關(guān)注官方微信公眾號
探索科技與商業(yè)的邏輯

商務(wù)合作、媒體邀約
趕緊聯(lián)系我們

Copyright ? 2009-2022 twwtn.com 科協(xié)聯(lián)盟榮譽(yù)成員科技世界網(wǎng)僅提供信息傳播載體，所刊登文章僅供參考鄂ICP備2022015873號-1

人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看