在去年的IFA 2024上,AMD高級副總裁兼計算和圖形業務集團總經理Jack Huynh宣布,將把面向消費者的RDNA和面向數據中心的CDNA架構統一為UDNA架構, 其實當年AMD所用的GCN架構就是大而全的統一架構,兼顧了圖形渲染和通用計算性能,但隨著技術的發展,這種全能逐漸變成了泛而不精,於是AMD把顯卡產品拆分成面向遊戲玩家的RDNA和面向數據中心的CDNA。在當時兩條並行的架構線路確實精準滿足了不同市場的特定需求,但兩種不同的架構並不利於軟體生態開發,於是AMD現在又要把它們合二為一,旨在創建一個更加靈活和統一的生態系統,使開發者能夠更輕鬆地將其應用程序擴展到從消費級設備到大規模數據中心的各種硬體上。

今年推出的RDNA 4架構將會成為最後一代RDNA產品,目前AMD圖形部門已經把大部分精力投入新的UDNA架構裡面,所以RDNA 4架構的產品會比較少。自2019年推出以來,RDNA架構已經歷了四次升級,也就是從Radeon 5000到現在的Radeon 9000這四代顯卡,今天我們就來看看從第一代RDNA架構到最後一代RDNA架構性能有多大提升。
RDNA

第一代RDNA架構是2019年推出的,它取代了GCN架構,CU單元拋棄了GCN的4×SIMD16設計,改為雙SIMD32單元,提升指令吞吐效率,極大地提升了計算單元在處理不規則遊戲負載時的利用率。

引入了由兩個CU組成的WGP作為基本調度單元,提升了處理能力。建立了全新的L0/L1/L2緩存體系,有效降低了數據訪問延遲,減輕了對顯存帶寬的壓力。此外還首次支持GDDR6顯存和PCIe 4.0總線,這些改動奠定了後續RDNA GPU的基本架構。

RDNA架構的IPC相比GCN架構提升了約25%,並在同性能下功耗比GCN降低50%,但第一代RDNA架構的顯卡產品線並不完整,Radeon RX 5000系列顯卡最高只有RX 5700 XT,並沒有旗艦級的產品。
RDNA 2

RDNA 2架構在2020年推出,它在每個CU中集成了光線加速器Ray Accelerator,支持BVH4遍歷和光線交互,這讓新一代的GPU支持DXR光追。RDNA 2還在晶片上集成了大容量緩存也就是Infinity Cache,最大容量128MB,相當於GPU的L3緩存,這有效減少了顯存訪問延遲,極大地提升了有效顯存帶寬。


RDNA 2雖然和RDNA的GPU一樣採用台積電N7工藝,但得益於設計優化,RDNA 2架構實現了相同功耗30%的頻率提升,或同頻率功耗降低50%。此外RDNA 2也是AMD首款支持Smart Access Memory和DirectX 12 Ultimate的GPU,而Radeon RX 6000系列也擁有從入門到旗艦的完整產品線,也是四代RDNA架構中產品線最齊的。
RDNA 3

RDNA 3在2022年推出,首次在消費級GPU上採用小晶片設計, 分離了離圖形核心與顯存控制器,圖形核心GCD採用台積電N5工藝,而顯存控制器採用台積電N6工藝,這設計的目的是想實現成本與性能的平衡,需要注意的是AMD只在高端的Navi 31和Navi 32上採用了小晶片設計,而主流級的Navi 33 GPU依然是單晶片。


RDNA 3在每組CU中加入了專用的AI加速器,支持FP16/INT8 AI運算,AI性能較上代提升了2.7倍,支持更複雜的 AI 渲染和計算任務。光追單元升級到第二代,支持Ray FIags和BVH8壓縮,遍歷效率提升50%。第二代Infinity Cache整合在MCD裡面,總容量較上代有所減少,從最大128MB減少至96MB,但帶寬要比上代高出2.7倍,實際利用效率比上代更高。CU單元具備雙指令發射能力,提高了INT32和FP32的理論算力。

RDNA 3還升級了顯示和媒體引擎,支持DisplayPort 2.1接口,為UHBR 13.5的規格,支持完整的Rec. 2020色域及12-bit HDR顯示,可實現8K@165Hz以及4K@480Hz影片輸出,媒體引擎也支持AI1影片格式的編解碼。整體來說RDNA 3的產品線還算比較齊全的,Radeon RX 7000系列顯卡只是缺了入門級產品,並不是什麼大問題。
RDNA 4

RDNA 4在2025年推出,目前還只有RX 9070和RX 9060系列的產品,產品線並不齊全,但可以確定的是這代真的只有這兩系列的產平,沒有旗艦產品和低端產品。RDNA 4放棄了上代的小晶片設計,重回單晶片方案,生產工藝也升級到台積電N4P,進一步提升核心能效。CU單元改進了雙指令發射,並採用動態寄存器分配優化了顯存訪問延遲提高整體核心效率。

不過光追和AI單元的強化才是RDNA 4的重點,第三代光線追蹤加速器採用定向邊界框(OBB)取代原本的軸對齊邊界框,更精確包圍物體,減少無效計算。光追加速器中加入了第二個光線交叉引擎,讓性能直接翻倍,還加入了專用的光線變換引擎,提升了光線遍歷BVH數在較低層級時的性能。

而第二代AI加速器的FP16算力翻倍,基於稀疏性的FP16算力是原來的4倍,INT8算力是上代4倍,基於稀疏性的INT8算力則是上代的8倍多,第二代AI加速器還增加了對FP8數據類型的支持。

在強化AI性能之後,AMD推出了使用AI進行超分的FSR 4,它利用了RDNA 4架構AI加速單元的FP8 WMMA功能來確保最大超分畫質質量,和FSR 3.1相比FSR 4帶來了更好的圖像質量,新的基於機器學習的算法有助於提高時間穩定性,更好地保留細節,減少重影,但也因如此目前僅RX 9000系列顯卡能使用FSR 4,而RX 7000系列雖然也有AI加速單元,但由於不支持FP8格式所以不能用。
由於AMD的每代顯卡產品線並不一定齊全,80和90級的高端和旗艦隻有RX 6000和RX 7000系列有,所以只能從每代都有的6和7級別產品中選擇,最後選擇了討論熱度更高的7系列。
從RX 5700 XT開始,往上的RX 6700 XT和RX 7700 XT雖然首發的建議零售價變高了,但它們的市場定位其實是一樣的,但到了RX 9070系列這裡就不是,RX 9070 XT無論規格還是售價都比此前的產品高得多,基本上它和上代的RX 7900 GRE差不多定位,和AMD歷代7系定位接近的其實是RX 9070 GRE,雖然說它的首發建議零售價也比以往產品高得多,但現在早已破發,大概3799元就能買到,和歷代AMD 700XT顯卡差不多,所以RX 9000系的代表就選它了。

從RX 5700 XT到RX 6700 XT,CU單元和流處理器數量是一樣的,但GPU遊戲頻率提升了38%,並且多了40個光線加速器 。顯存位寬從256bit降低至192bit,不過顯存容量從8GB增加到12GB,顯存也從14Gbps提速至16Gbps,雖然說顯存帶寬還是要比上代低,但新增的96MB Infinity Cache可彌補這一損失。
RX 7700 XT的CU數量從40組暴增至54組,流處理器和光線加速器數量也大幅增加,新增AI加速單元,Infinity Cache緩存容量雖然減半,但帶寬大幅上升,顯存速率也從16Gbps提升至18Gbps,帶寬也從384GB/s提升至432GB/s。
RX 9070 GRE的CU數量從54組減少至48組,其實如果光看硬體規格的話它其實要比RX 7700 XT更低,但不論CU還是光線加速器和AI加速器都有升級,另外GPU的頻率也比上代更高,PCIe總線也升級到了5.0,顯存規格是和上代是一樣的。

測試平台我們使用了銳龍7 9800X3D這款目前最好的遊戲處理器,搭配微星 MPG X870E CARBON WIFI 暗黑主板,內存是芝奇 焰鋒戟 DDR5-6000 CL26 16GB*2套裝,這套C26的DDR5-6000 EXPO套裝能讓銳龍7 9800X3D發揮出最佳的性能。
測試的顯卡自然包括Radeon RX 5700 XT、RX 6700 XT、RX 7700XR和RX 9070 GRE,各款顯卡的頻率請看上面的平台配置表,實際上這些顯卡的功耗都在250W左右。這次一共會測試12款遊戲,由於測試的顯卡年代跨度較大,所以所選的遊戲也是有新的也有舊的,有3A也有網遊,會測試1080p和2K解析度下的遊戲性能。
測試的遊戲中有8款是支持光追的,當然它們支持光追的程度也各不相同,你也不能指望AMD顯卡能跑路徑追蹤,具體的光追設置會在測試表格里標明。
基準測試還是使用我們熟悉的3DMark來進行。其中,Fire Strike、Fire Strike Extreme和Fire Strike Ultra測試了顯卡在DX 11中,1080P、2K和4K下的表現。而Steel Nomad、Time Spy和Time Spy Extreme測試的是顯卡在DX 12中,2K和4K下的表現。Port Royal是針對顯卡光追性能的測試,Speed Way測試的是顯卡在DX 12U中的表現,包含DXR光追,由於RX 5700 XT不支持光追,它自然沒有這兩項測試的成績。

從3DMark的跑分來看,基於DX 11的Fire Strike系列測試每代都比上代有20%左右的性能提升,而使用DX12的Time Spy測試代際差距有30%之多,但在DX 12U的Steel Nomad測試裡面,RX 6700 XT相比RX 5700 XT只有11%的提升,RX 7700 XT對比RX 6700 XT倒是提升了36%之多,但由於基數過低導致它相比RX 5700 XT只有52%的提升,和Time Spy測試結果差距有些大,RX 9070 GRE倒是在這測試中比較正常,它比RX 7700 XT得分高了59%,和RX 5700 XT的性能差距與Time Spy也比較接近。

到了光追的測試,RX 6700 XT就變成基準參照物了,實際上AMD RDNA 2的光追性能表現確實一般,但後面的RDNA 3和RDNA 4這兩代都在努力強化光追,每隔一代都有30%~40%的光追性能提升。
遊戲部分,我們這次是選了12款遊戲進行2K和1080p解析度下的性能測試,當中8款遊戲是支持光追的。所有的遊戲跑光柵化測試時的都是默認最高畫質,光追的測試會請看表格裡面的畫質設置,同時這些測試都是使用原生解析度,沒有開啟超分技術。
1080p光柵遊戲

實際上RX 5700 XT這款六年前的顯卡現在依然能在1080p最高畫質下流暢運行絕大部分遊戲,測試的遊戲中只有《黑神話:悟空》、《刺客教條:暗影者》和《古墓奇兵:暗影》這三款遊戲幀率不過60fps,不過這三款都是最新的遊戲,說明這卡面對新遊戲時確實力不從心了。
而且比較有趣的是在《黑神話:悟空》裡面RX 5700 XT的幀率比RX 6700 XT還要高,在其他遊戲中平均幀率都是提升的,唯一的解釋就是RX 6700 XT顯存帶寬倒退導致的,因為RX 6700 XT其他規格都比RX 5700 XT更高。
最新的RX 9070 GRE遊戲性能和RX 5700 XT相比是直接翻了一倍,和RX 7700 XT相比整體性能提升了28%,RX 7700 XT則比RX 6700 XT高24%,RX 6700 XT比RX 5700 XT平均高34%。
2K光柵遊戲

解析度提升到2K的話,RX 5700 XT平均幀率低於60fps的遊戲變多了,同樣情況也發生在RX 6700 XT身上,這兩張卡對於一些硬體要求較高的遊戲已經力不從心。當然了《黑神話:悟空》這種級別的遊戲你即使拿RX 9070 GRE來玩也說不上流暢,《刺客教條:暗影者》這種RX 9070 GRE也不滿60fps但可以玩,《魔物獵人:荒野》的話RX 7700 XT其實就夠流暢了。
談論性能提升幅度的話,基本上RX 5700 XT、RX 6700 XT和RX 7700 XT這三張卡之間的差距和1080p時沒多大區別,但RX 9070 GRE有更大的代與代之間的提升,它和RX 7700 XT之間的差距增加到了35%,與RX 5700 XT比較的話性能增幅達到了123%之多。
1080p光追遊戲

《古墓奇兵:暗影》只有光追陰影,對顯卡的性能需求較低才讓RX 6700 XT跑出這麼高的幀率,其他遊戲都跑不出來,《GTA V》增強版在1080p下不是太吃資源所以RX 6700 XT也運行得較為流暢,其他勉強說得上流暢的也只有《魔物獵人:荒野》了。
RX 7700 XT的情況會好不少,光追性能較上代提升了32%,不少遊戲都變流暢了,但《電馭叛客2077》和《刺客教條:暗影者》這種還得進一步升級到RX 9070 GRE才會比較好。RX 9070 GRE比RX 7700 XT光追性能提升了54%之多,可見RDNA 4的光追性能提升確實非常大。
需要說明的是《電馭叛客2077》光追開的是超級這檔,不是用了路徑追蹤的過載模式,否則幀率也會變《黑神話:悟空》那種情況,《F1 25》也沒開路徑追蹤,目前AMD顯卡並不建議開這東西。
2K光追遊戲

解析度提升到2K的話,RX 6700 XT就只有《古墓奇兵:暗影》一款遊戲平均幀率能過60fps了,而RX 7700 XT也只是多了一款《GTA V》增強版,到了RX 9070 GRE則有5款遊戲平均幀率超過或接近60fps,而且RX 9070 GRE還有個優勢是能開FSR 4,在2K解析度下質量模式其實和原生畫質沒什麽區別,甚至因為畫質銳化的關係某些地方會更加清晰,這些就是新一代RDNA 4顯卡的最大優勢,舊的RDNA顯卡是不能提供的。
通過我們手中的PCAT套件,可以分別精確地測量顯卡PCIe、外接電源接口瓦特數,顯卡最大功耗在3DMark Time Spy Extreme壓力測試中獲得,待機功耗則是在進入系統後記錄1分鐘取平均值。

其實看到這些擠成一團的功耗曲線就能看出這些顯卡的功耗其實是差不多的,RX 5700 XT在烤機時的平均功耗是256.9W,最大功耗是287.2W;RX 6700 XT平均功耗250.4W,最大功耗是267.7W;RX 7700 XT平均功耗254.8W,最大功耗是286.3W;RX 9070 GRE平均功耗247.6W,最大功耗是285.7W。
這四張顯卡的功耗都在250W左右,說明AMD這個級別的產品經過四代的發展功耗變化不大,全部選擇用更多的功耗去換性能了。

待機時RX 5700 XT的功耗明顯比另外三張卡更高,它的待機功耗是12W,而RX 6700 XT、RX 7700 XT和RX 9070 GRE都是8W出頭,明顯低得多。
我們的GPU散熱測試均在裸機狀態(如果安裝在機箱內,GPU溫度會高出5℃左右)下進行測試,測試環境溫度約為25℃。待機溫度是開機以後記錄5分鐘,滿載溫度則是完成3DMark Time Spy Extreme壓力測試後記錄下,數據通過GPU-Z的Log to File功能記錄,以下為溫度測試曲線。



溫度我就放出來大家看看算了,因為都是非公版的卡,不同顯卡散熱設計差異會很大,再加上那些舊卡其實都用過一段時間,其實溫度並不適合直接對比,不過RX 5700 XT的熱點溫度確實驚人,後面的三代產品都沒有這麼離譜的熱點溫度。

根據上面的測試成績,我們可以統計出這四代RDNA的70系顯卡之間的性能差距,上面是純光柵性能的統計,由於RX 6700 XT到RX 9070 GRE配的都是12GB顯存,並不會出現2K解析度下顯存不足的情況,所以就把1080p和2K的成績放一起統計了。RX 6700 XT相比RX 5700 XT的性能提升還是蠻大的,達到了32.4%,而RX 7700 XT對比RX 6700 XT就只有24.9%的提升,到了RX 9070 GRE和RX 7700 XT之間也有31.1%的性能增幅。

光追性能方面,基準參照無肯定就變成RX 6700 XT了,RDNA 2就AMD首款支持光追的顯卡,而它後繼者RX 7700 XT在光追性能上提升了34.8%,增幅要比光柵性能好不少,最新的RX 9070 GRE在光追性能上的提升比上代產品高出了55.5%之多,最新的RDNA 4架構確實在光追方面提升非常大。
從上面的結果來看,RX 9070 GRE相比RX 7700 XT以及RX 6700 XT相比RX 5700 XT確實有非常大的提升,但RX 7700 XT與RX 6700 XT比起來提升就沒那麼高了。其實採用RDNA 3架構的顯卡,在RX 7800 XT之下的產品性能提升確實沒RX 7900系列那麼多,RX 7700 XT規模比RX 6700 XT大了這麼多,這點性能增幅確實有點對不起它的GPU規模。
RDNA 3強化了光追單元並加入了AI加速器,它的光追和AI性能確實比RDNA 2強不少,但從現在的眼光來看它這兩方面依然不太夠用,特別是RX 7000系列顯卡光有AI加速器卻用不了FSR 4這點確實比較慘,實際上有玩家試過在RX 7900 XT上強開FSR 4,開是開了,畫質也變好了,但由於AI算力不夠的關係導致幀率下降非常嚴重。
而最新的RDNA 4架構這兩方面都比RDNA 3強得多,它能用FSR 4這點就與舊的RDNA顯卡產生明顯的代差,如果還沒看過FSR 4能帶來多大的畫質提升的話可以去回顧我們的《AMD RX 9070系列顯卡天梯榜首發評測》,開啟FSR 4後幀率基本和FSR 3.1沒多大區別,但基於AI的FSR 4能夠明顯提升畫質清晰度,同時修復 FSR 3的細節缺失問題,大大改善了超解析度技術的畫質體驗。
現在還在使用RX 5700 XT和RX 6700 XT或者GRE這類顯卡的朋友,如果想升級的話RX 9070 GRE是一個非常適合的選擇,現在這卡已經降至一個非常適合的價格,而在使用RX 7700 XT的用戶,雖然上面說了這麼多RDNA 3的尷尬地方,但這卡的基本性能還是很強的,目前其實沒多大升級的必要,繼續等下一代產品即可。