1引言&规格对比&外观赏析
(资料图)
引言
老黄在2022秋季GTC大会上发布了万众瞩目的RTX4090与RTX4080显卡,全新的AdaLovelace架构和TSMC4N工艺的升级让这两张显卡在性能层面有了质的飞跃,价格方面也是水涨船高,相信不少玩家也跟笔者一样,期待NV赶紧推出适合玩家的中端显卡。现在GeForceRTX4070Ti它来了!
我们也在第一时间体验到了耕升的RTX4070Ti显卡,在上手了使用了耕升GeForceRTX4070Ti星极幻姬OC一段时间后,笔者发现这张RTX4070Ti不仅颜值在线,性能也是超乎预期的强,经过重新定价的RTX4070Ti确确实实可以称得上是目前最具性价比的RTX40系显卡,下面给大家讲讲这张显卡究竟强在哪里。
*下文“耕升 GeForceRTX4070Ti星极幻姬OC”简称为“耕升RTX4070Ti星极幻姬OC”
规格对比
规格对比
开始测试前,先让我们了解一下耕升RTX4070Ti星极幻姬OC,其采用的是AD104-400核心,TSMC4N工艺制造,芯片面积为295平方毫米,别看它面积比上代的GA104-400核心小,但它的晶体管密度达到了358亿,晶体管数量相比较于上一代产品提升非常明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,耕升RTX4070Ti星极幻姬OC上的AD104核心标配7680个CUDA,60个第三代RTCores,240个第四代TensorCores,并且用上了12GB的GDDR6X显存,相比上代的提升还是很明显的,毕竟大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
目前耕升RTX4070Ti星极幻姬OC显卡上配备的这颗AD104-400核心可以算是完整的AD104核心了。完整的AD104核心应该包括5个GPC(图形处理集群)、30个TPC(纹理处理集群)、60个SM(流式多处理器)以及一个带有6个32Bit显存控制器的192Bit显存带宽。
不过以老黄精准的刀法来看,RTX4070Ti之下应该还有一张RTX4070,笔者猜测,RTX4070显卡应该还会延用AD104核心,不过会在RTX4070Ti的基础上进行阉割,衍生出AD104-300核心,性能会稍逊一筹,不过价格也会有一定优势。
外观赏析: 耕升 GeForce RTX 4070 Ti 星极幻姬 OC
耕升RTX4070Ti星极幻姬OC的外包装还是相当有特点的,正面满满当当的赛博朋克风。在包装的右下角标明了自己的身份GeForceRTX4070Ti,而在左下角是型号星极皓月OC12GBGDDR6X。
包装盒的背面就显得有些朴素了,主要介绍了耕升的品牌理念与星极系列显卡的独特设计。
耕升在包装盒的正面还特地标注了耕升RTX4070Ti星极幻姬OC支持三年质保以及个人送保,玩家可以放心购买。
拆看包装就能看到耕升RTX4070Ti星极幻姬OC的真容了,这款显卡的设计相当大胆,正面是冰川蓝与少女粉的渐变组合,极致的色彩碰撞,让显卡冷艳而又不失高贵。把它与其他显卡放在一起,它绝对是最迷人的存在。
正面的三把散热风扇格外引人注目,每把风扇都达到了92mm的直径,配合第二代耕升“炫风之刃”造形扇叶,特殊分叶型设计让风扇在相同的转速底下比传统扇叶拥有更大的风流量,进一步舒缓显卡温度,加强核心动态频率的提升幅度。
放大看细节,中间的散热风扇被银色风扇框所包围,造型酷似一只眼睛,四周的镂空其实是由耕升的“G”Logo所组成,出色的设计中也藏有不少细节。
耕升RTX4070Ti星极幻姬OC的背板由金属材质打造,可以给PCB提供充足的保护。正面的渐变色一直延申至背部,原本不起眼的背板也多了一分韵味。
背面还用上了穿透式散热设计,在金属背板的右方进一步加大积镂空间,配合散热器上第三组风扇的风流直接穿透散热鳍片以及镂空的PCB设计,令显卡温度进一步下降。
显卡顶部是巨大的“耕升GAINWARD”Logo,不点亮时有着银色的反光,在蓝粉渐变双色的映衬下格外显眼。
点亮后即可看到RGB灯效,同时包装盒内还附送了ARGB的显卡支架,跟显卡配合使用能够见到不一样的RGB效果。如果你的其他硬件支持灯效同步,那整套平台将还你一个酷炫的视觉盛宴。
供电接口使用的是在PCI-E5.0规范中引入的12VHPWR供电接口,理论上可以提供最高600W的持续供电,供电仅需一根12VHPWR供电线即可,如果使用的是ATX2.0标准的电源,也可使用赠送的2*8pin转12VHPWR转接。
显卡的底部则还是一如既往的简约,一大排鳍片出风口贯穿始终,并且紧贴金属背板,多重散热加持,相信耕升RTX4070Ti星极幻姬OC在后续的测试中有不错的表现。
显卡底部的PCIe金手指为标准的PCIe4.0x16速率,拥有更快的传输速度,有利于显卡释放更强的性能。
显卡提供4个视频输出接口,包括三个DisplayPort1.4a和一个HDMI2.1接口,均可实现最高8K60Hz的视频输出,如果你是多屏党,这款显卡最大支持4屏输出,绝对能够满足你的需求。
不得不说的是这款显卡的厚度足足有64mm,也就是3槽的厚度,这对小体积的机箱会是不小的挑战,选购机箱时要注意长度跟厚度相匹配。
2耕升 GeForce RTX 4070 Ti 星极幻姬 OC 显卡拆解
显卡拆解:耕升 GeForce RTX 4070 Ti 星极幻姬 OC
耕升RTX4070Ti星极幻姬OC不仅有着吸睛的外观设计,内部构造也是极致豪华。拆解这款显卡仅需卸下背板螺丝即可。
最让人震惊的是短PCB设计,比RTX3090Ti还要短不少。并且还是8层PCB设计,既加强了散热,也保证了电路系统的稳定。
由于PCB正面的集成度较高,所以背部反而显得较为简洁一些,主要是一些供电的PWM控制芯片和滤波用的MLCC。
AD104-400-A1核心占据着PCB的C位,SMC4N工艺打造,295mm2的芯片面积内塞下了7680个CUDA核心,这也是它能够战胜RTX3090Ti的资本。
核心四周是6颗GDDR6X显存颗粒,来自美光科技,型号是2GU47D8BZC,单颗显存容量为2GB,6颗显存共组成12GB。不过显存速率仅有21Gbps,相比大哥RTX4080略低。
耕升为这款显卡配备了13相供电,其中11相为核心供电,位置安排在PCB的左侧,每相供电都配上固态电容、封闭电感,以及DrMos芯片。
剩下两相为显存供电,位置就在GDDR6X显存旁边,配置与核心供电保持一致。
DrMos芯片来自万国半导体,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。
PWM主控芯片是UPI的uP9512R,能够同时管理核心供电及显存供电,这个配置与绝大多数RTX4070Ti显卡一致。
供电配置都堆料了,供电接口也进行了换代升级,全新的12VHPWR接口单口就能够提供600W供电能力,用来带这张300W出头的耕升RTX4070Ti星极幻姬OC可以说是绰绰有余了。
耕升RTX4070Ti星极幻姬OC为了压制这颗满血的AD104核心,用上了全新的“幻姬22”散热器,独特的金属外壳配搭迷人色彩,冷艳而不失高贵。
从侧面看,“幻姬22”散热器相当的有分量,几乎与RTX4080的散热器同等厚度了,这也让笔者对这款显卡的散热表现充满好奇。
散热器的一端是大面积的均热板,耕升在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,就连AD104核心处也是厚厚的一层硅脂,基本上把能堆料的地方都拉满了。
散热器另一边是大面积紧密的散热鳍片,能够更快的将显卡内部的热量导出,让显卡保持“冷静”,全力输出。
厚重的散热器内还藏了8根6mm的复合式热导管,贯穿整个散热器,还用上了抗氧化能力极强的镀镍工艺,延长使用寿命。
“幻姬22”散热器上还有三把散热风扇作为主动散热,三把风扇的直径达到了92mm,散热能力一定是足够的。
风扇扇叶用的是经优化的耕升专用“炫风之刃”扇叶,改良后可以提升风流量,并减低声噪,有效加强散热,内外兼备。
3测试平台介绍&理论/游戏性能测试
测试平台介绍
下面介绍一下这次的测试平台,还是我们评测室的最强平台,CPU使用的是目前的旗舰——Inteli9-13900K处理器,主板为华硕Z790HERO,搭配金士顿的64GBDDR5-6000高规格内存,只有最强的硬件才能真正展示这张显卡的性能。
CPU、内存等硬件都是旗舰级了,那显示器也要衬得上才行,此次测试我们用的是爱攻&保时捷联名设计的AGONPD32M,miniLED背光、144Hz、高色域等一应俱全。因此耕升RTX4070Ti星极幻姬OC才能在2K甚至4K分辨率下大放异彩。
测试前先用GPU-Z对显卡的状态与详细信息进行初步的了解,从图中可以知道,耕升RTX4070Ti星极幻姬OC的基准频率为2310MHz,Boost频率去到了2685MHz,比一般的RTX4070Ti的2610MHz还要高出75MHz,可以预见它的性能会有不错的表现。
除此之外,我们还可以看到这款显卡的TGP设定最高去到330W,温度墙上限定在了88℃,这显然是给显卡超频预留了一定的空间。还有一点需要注意的是,在使用RTX40系显卡前一定要确认主板的ResizableBAR功能是否开启,这样显卡才能够最大限度的发挥出全部性能。
理论性能测试
国际惯例,先测试一下耕升RTX4070Ti星极幻姬OC的理论性能,从3DMark测试成绩来看,耕升RTX4070Ti星极幻姬OC相比前代RTX3070Ti有50%的性能提升,如果是对比RTX3090Ti,性能表现则与之相近,基本上是五五开的水平。
不过耕升RTX4070Ti星极幻姬OC在部分场景下还是能够领先RTX3090Ti,像在以DX12为代表的TimeSpy测试中,这款显卡就跑出了22836分,这一成绩比前代旗舰RTX3090Ti还要高出500分左右。
而在以DX11为代表的FireStrike中,耕升RTX4070Ti星极幻姬OC有着更出色的表现,测试成绩54948分,相比RTX3090Ti的52129分足足提升近3000分,可以预见的是这款显卡在游戏方面应该比RTX3090Ti要强一些。
算力方面,我们使用AIDA64GPGPU进行测试,虽然耕升RTX4070Ti星极幻姬OC的显存位宽不及前代显卡,但得益于升级到了GDDR6X,以及用上了更新的AdaLovelace架构,让这款显卡在单精度和双精度浮点运算以及显存速率上都当仁不让,丝毫不逊色于RTX3090Ti。如果是对比前代RTX3070Ti,那性能提升更是颠覆性,整体性能差距足足有1.7倍。
游戏性能测试
耕升RTX4070Ti星极幻姬OC的游戏性能才是玩家真正关心的,这次我们也选择了10多款游戏在多个分辨率下进行测试。
首先是1080P分辨率,参测的几张显卡都很轻松,不过耕升RTX4070Ti星极幻姬OC以更强的性能表现和更新的架构革新,还是能够领先RTX3070Ti46%以上。相比RTX3090Ti也有10%的性能领先,不少游戏能够领先20FPS左右。
在1440p分辨率下,耕升RTX4070Ti星极幻姬OC显卡整体游戏性能仍是比RTX3090Ti要强上不少的,约领先10%左右的性能,如果是跟RTX3070Ti相比,这个领先幅度将扩大到52%之多。在我们实测中,有了耕升RTX4070Ti星极幻姬OC加持后,基本大部分的游戏都能运行在120+FPS以上,那么我们配上目前主流的2K165Hz显示器完全是没有问题的。
4K分辨率下,耕升RTX4070Ti星极幻姬OC与RTX3090Ti互有胜负,究其原因是RTX3090Ti有先天大显存的优势,因此在游戏体验中会稍稍领先。不过耕升RTX4070Ti星极幻姬OC的性能还是比RTX3070Ti强不少,足足有127%左右的提升,另外这款显卡还有DLSS3可用,所以实际游戏表现还是会比RTX3090Ti好不少。
4DLSS 3性能测试
DLSS 3性能测试
要说RTX40系显卡在游戏方面最大的提升是什么,相信不少玩家都会说是DLSS3。全新的DLSS3技术可以大幅提升帧率,而且系统延迟大大降低,生成的画面更是足以媲美甚至超越原始渲染的效果。老黄甚至在发布会上说用上DLSS3能够实现游戏性能的翻倍提升,下面我们就实测看看。
3 DM ark DLSS3 理论性能测试
还是老惯例,先测试一次理论性能,在3DMark的DLSS3测试中,耕升RTX4070Ti星极幻姬OC仅开启DLSS2的情况下就已经能够实现2K@144Hz,4K@60Hz的游戏体验了;如果开启DLSS3后,2K下帧数能够上升至160FPS,4K画质下已经去到100+FPS。
8K画质其实我们也测试了,虽然DLSS3下能够跑到54FPS,但离稳定60FPS还有一段距离,想要用RTX4070Ti玩8K可能还需要游戏能有神优化才能实现。不过这毕竟是一张定位2K高刷3A的游戏显卡,这样的理论性能表现笔者已经相当惊喜了。
《生死轮回》游戏实测
上面我们说到DLSS3,现在已经有不少游戏支持最新的DLSS3技术,这里笔者也选择了一款首发支持DLSS3的《生死轮回》进行实测。在1080P下,开启DLSS3的耕升RTX4070Ti星极幻姬OC领先RTX3090Ti足足有100FPS之多,2K分辨率下也能有60FPS以上的领先幅度。当然最让人惊喜的是,耕升RTX4070Ti星极幻姬OC的功耗全程仅有206W,足足比RTX3090Ti低180W,但却实现了超越RTX3090Ti的性能,不可谓不强大。
在其他游戏中,耕升RTX4070Ti星极幻姬OC的表现也不错,在开启DLSS3后,多款游戏的帧数表现都大幅领先RTX3090Ti,基本都是1.5倍左右的性能提升,并且游戏全程功耗都在300W以下,相比RTX3090Ti动辄近400W的功耗来说,这样的能耗比才是玩家所想看到的。用RTX3090Ti50%的功耗实现了RTX3090Ti150%的性能,售价还只有RTX3090Ti的一半,你还在等什么,这就是目前最具性价比的2K游戏显卡!
1 080P 分辨率 DLSS 性能测试
1080P分辨率对于上代RTX3070Ti早已不是问题,对耕升RTX4070Ti星极幻姬OC更是不在话下,DLSS3的加持下,它的游戏性能已经是RTX3070Ti的两倍,即便是RTX3090Ti在场,耕升RTX4070Ti星极幻姬OC依旧有70%以上的游戏性能优势。我们实测在1080P分辨率下,使用这款显卡搭配DLSS3,不少游戏都能做到200+FPS,这完全是电竞级别在玩3A了属于是。
2 K 分辨率 DLSS 性能测试
作为一张定位2K高刷3A游戏显卡,耕升RTX4070Ti星极幻姬OC的表现果然不负众望,在DLSS2下,这款显卡已经能够跟RTX3090Ti平分秋色了,开启DLSS3后,即使是前代旗舰RTX3090Ti也无法跟耕升RTX4070Ti星极幻姬OC相提并论,游戏性能领先足足有50%之多!并且从表中可以看到2K分辨率下,大部分游戏都在144+FPS以上,只要换上耕升RTX4070Ti星极幻姬OC,2K分辨率高刷畅玩3A不再是梦。
我们也使用耕升RTX4070Ti星极幻姬OC在DLSS2和DLSS3两种模式下测试了多款游戏,从实测结果来看,DLSS3确实有点东西,不少游戏的帧数都有明显提升,其中不乏一些游戏有翻倍的性能提升。像《毁灭全人类2》这款游戏,耕升RTX4070Ti星极幻姬OC在DLSS2下游戏帧数为108FPS,而开启DLSS3后,游戏帧数达到了惊人的274FPS,这已经不是老黄所说的翻倍,而是接近3倍的性能提升了!
4 K 分辨率 DLSS 性能测试
耕升RTX4070Ti星极幻姬OC在4K分辨率下开启DLSS2后整体性能还是弱于RTX3090Ti,不过开启DLSS3后,情况就有了逆转,实测大部分游戏在DLSS3加持下能够跑到100+FPS,基本上与RTX3090Ti打得有来有回。不过想要用这款显卡玩4K@144Hz高刷3A,可能需要降低部分特效才行。
总的来说,耕升RTX4070Ti星极幻姬OC在1080P和2K分辨率下已经超越了30系显卡中的旗舰RTX3090Ti,并且游戏帧数几乎都在144FPS以上,完全符合它2K高刷3A游戏神卡的定位。而4K分辨率由于显存比RTX3090Ti小,因此互有胜负,不过好在老黄给这张卡加上了DLSS3这个黑科技,所以开启DLSS3后,耕升RTX4070Ti星极幻姬OC的整体性能还是优于RTX3090Ti。
5创作/专业生产力测试
创作生产力性能测试
理论与游戏上的性能提升让笔者对耕升RTX4070Ti星极幻姬OC充满期待,在创作生产力上是否也是如此?我们选择PugetBench、PCMark10、ULProcyon等多款常见的测试软件,来测试耕升RTX4070Ti星极幻姬OC在日常办公、视频内容生产方面的表现。
首先看到的是PCMark10Extended测试,耕升RTX4070Ti星极幻姬OC在数位内容创作与游戏两个子项目上不仅大幅领先RTX3070Ti,甚至一度超越了RTX3090Ti,这与上面实测的游戏性能一致,下面我们对数位内容创作进行更详细的测试。
在需要大显存的ULProcyon与PugetBench测试中,RTX3090Ti凭借24GB的超大显存稍稍领先于RTX4070Ti。不过两者的性能差距不到5%,并且耕升RTX4070Ti星极幻姬OC还支持全新的AV1编码,这项功能能够大幅提升视频的导出速度,这是30系显卡所不具备的,因此越往后,耕升RTX4070Ti星极幻姬OC的优势只会越来越明显。
专业生产力性能测试
不少用户买显卡也是为了能够更好的从事专业性的工作,因此这次我们也选择了Blender、V-Ray、OctaneBench等多款渲染、工业领域的软件测试耕升RTX4070Ti星极幻姬OC的性能表现。
在N卡常用的Blender渲染软件中,耕升RTX4070Ti星极幻姬OC相比RTX3070Ti有68%的性能提升,即便是30系的老大哥RTX3090Ti来了,这款显卡也毫不逊色,依旧领先10%以上!可以说耕升RTX4070Ti星极幻姬OC已经全方位的领先于前代卡皇。
在OC渲染器与SPEC测试中,成绩也是如此,性能基本领先RTX3090Ti有10%左右。如果是RTX3070Ti就更不用说了,领先幅度能够去到70%。现在你想体验卡皇的性能仅需购买耕升RTX4070Ti星极幻姬OC即可,一半的价格带你领略前代卡皇的魅力。
双NVENC编码器专项测试
RTX40系显卡在游戏上带来了DLSS3,在视频创作上同样带来了黑科技,耕升RTX4070Ti星极幻姬OC内置了双编码器NVENC,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它。
我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,使用耕升RTX4070Ti星极幻姬OC进行AV1编码会比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,耕升RTX4070Ti星极幻姬OC有着无可比拟的优势,编码效率比RTX3090Ti快60%以上。
导出速度快并不是AV1编码的唯一优势,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上。并且肉眼下几乎感受不到AV1编码与H.265编码的画质区别,难怪越来越多的软件和视频网站开始支持AV1编码,不久的将来,它将会是主流趋势。
6
功耗与发热
耕升RTX4070Ti星极幻姬OC虽然是一张定位300W的中端游戏显卡,但耕升却为其配备了一个比肩RTX4080的散热器,不得不说这样的散热配置给RTX4070Ti用有些大材小用了。
在室温25℃的情况下,使用Furmark单烤15分钟后,耕升RTX4070Ti星极幻姬OC的GPU核心运行在2650MHz左右,但此时核心温度仅有68℃,显存更是仅有58℃,这跟前代RTX3090Ti动辄70℃起跳相比,能耗比堪称史诗级进步。
耕升RTX4070Ti星极幻姬OC不仅仅是温控做得不错,功耗与噪音控制也相当优秀,烤机15分钟仅有286W,比前代卡皇RTX3090Ti低了足足100W,但性能却能够做到持平甚至超越!并且烤机状态下,风扇转速也不高,噪音也只有35dB,如果是放在机箱内,这个噪音水平几乎是听不到的。
为了更直观的展示耕升RTX4070Ti星极幻姬OC的功耗表现,我们利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到耕升RTX4070Ti星极幻姬OC整体功耗控制相当出色,在所有测试场景内都没有突破300W,部分项目的功耗甚至不到RTX3090Ti的一半,但性能却已经超越,这样的表现难怪让一众游戏玩家高呼“真香“。
总的来说,老黄的AdaLovelace架构和TSMC的4N工艺确实有点东西,耕升RTX4070Ti星极幻姬OC无论是理论测试还是生产力创作,甚至是游戏场景都妥妥的吊打前代显卡,让这代显卡的每瓦性能实打实的提升到了一个新高度,这是30系显卡无论如何努力都无法企及的高度。
超频潜力测试
换装“幻姬22“散热器的耕升RTX4070Ti星极幻姬OC在散热效能上有不少的提升,这也给超频提供了可能,因此笔者也测试了这款显卡的超频潜力。
我们使用的是耕升全新升级的GW-SOUL调控软件,这款软件不仅可以实时显示显卡频率,还可以一键超频,方便小白用户操作。当然风扇调节、RGB调控等基础功能也是应有尽有,下载这款软件几乎可以满足你对显卡的所有设置了。
笔者经过一系列的尝试,最终将显卡核心频率提升了150MHz,显存频率提升了500MHz,在这样的条件下运行3DMarkTimeSpy项目,最终耕升RTX4070Ti星极幻姬OC的运行频率突破3000MHz,取得23921的高分,相比默频状态几乎高出2000分,性能提升还是相当可观的。
评测总结
实际测完后不得不感叹RTX4070Ti显卡的性能确实强,老黄的Ada架构与DLSS3功不可没,让这代显卡有着超乎预期的性能表现。同时换装TSMC4N工艺后,显卡的能耗比相比上代30系也有了全新的改变,超低的功耗更强的性能成为40系显卡的标配。毫无疑问,这代显卡从里到外都是一次革新,处处皆惊喜。
再说说这次评测的主角——耕升GeForceRTX4070Ti星级幻姬OC,它的外观设计几乎是所有RTX4070Ti中最前卫的,单是双色渐变在辨识度上就超越了99%以上的显卡。不得不说耕升在显卡设计方面确实有一手,之前评测的炫光系列也是凭借独特的RGB灯效俘获玩家的芳心,现在在星极系列上用大胆跳脱的撞色设计让显卡依旧冷艳迷人。
然而耕升GeForceRTX4070Ti星级幻姬OC不单止在设计上有特色,在配置与性能上也是竭尽全力的给你最好的体验。得益于“幻姬22“散热器的超强散热能效与架构工艺的更新,让这款显卡能够以RTX3090Ti一半的功耗实现超越RTX3090Ti的性能!拥有这款显卡你就能够在2K画质下高刷畅玩3A,再加上这张显卡的售价仅有RTX3090Ti的一半,可以说它的出现,让大众玩家也能感受40系显卡的强悍性能。
耕升GeForceRTX4070Ti星级幻姬OC现已上市,售价7099元,考虑到其更强的频率设定与激进的散热配置,价格相比起步价6499元更高也是可以理解的。如果你最近想要更换一款性能强劲的显卡,那不妨看看耕升GeForceRTX4070Ti星级幻姬OC,更低的售价,超乎前代卡皇的性能相信一定能够满足你的需求。
7功耗&超频&评测总结
技术讲解:Ada Lovelace架构解析
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4070Ti拥有60个SM,7680个CUDA核心,那你也就应该明白它的着色器能力进一步加强,即使比起上一代的卡皇RTX3090Ti显卡,那也是丝毫不虚的。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX4070Ti配备了48MB二级缓存,相比RTX3070Ti可以说是质的飞跃。
8技术讲解:Ada Lovelace架构解析
技术讲解:第三代 RT Cores 与 第四代 Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。
第三代RTCores
RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
9技术讲解:第三代RT Cores与第四代Tensor Cores
技术讲解:DLSS 3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
10技术讲解:DLSS 3
技术讲解:双NVIDIA编码器(NVENC)
GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。
标签:
参与评论