RTX 2080Ti/2080显卡游民首测:4K平均60帧
记得上一代GeForce 10的Pascal架构首发,也就是GTX 1080显卡发布,还是2016年的五月份,NVIDIA的游戏显卡换代从来没有哪次像这样让人等得望眼欲穿。一代显卡的正式服役周期通常是一年半,早在一年前坊间就不断爆出新显卡发布的时间,结果都是"狼来了"。于是各种猜测甚嚣尘上:"老黄在憋大招","A卡不给力",现在这些都不重要了,在全世界的玩家苦等了一年之后,狼真的来了。

8月21日的科隆游戏展上,NVIDIA正式曝光了新一代游戏显卡的旗舰与准旗舰型号,真相让所有人都瞠目结舌,因为之前关于新显卡的一切猜测几乎都是错的,连型号名称也是如此。
现在我们已经知道了,新旗舰叫做GeForce RTX 2080Ti,次旗舰为GeForce RTX 2080,而不是之前确信的GTX 1180,架构也不是之前认为板上钉钉的Volta,而是Turing。NVIDIA不但将系列名称直接升到GeForce 20,连自上古时代一直传承下来的游戏专属前缀GTX也舍弃了,取而代之的叫RTX。不过,笔者相信当你仔细了解完这款全新的架构之后,就丝毫不再感到惊奇了,因为与架构本身相比,这点儿名称上的变化实在是微不足道。

首先来说一下RTX的由来,R和T分别是光线追踪Ray Tracing的两个首字母,而X没猜错的话应该是代表Express。组合起来就是"高速光线追踪"意思,喻意从这一代开始NVIDIA显卡最重要的架构、功能革新。
由于Turing架构所涉及的新技术较多,这方面的描述对于图形计算基础知识薄弱的玩家阅读起来会十分晦涩,所以笔者将尽可能地深入浅出,挑选对玩家日后游戏体验影响重大的变革加以详细描述。 觉得这部分枯燥的玩家可直接跳转到游戏测试部分。
现在,让我们开始这次Turing之旅吧。
图灵的来龙去脉
Turing架构其实并不是完全陌生的,去年NVIDIA发布了TITAN V时就预示了它的存在,只是这次NVIDIA换了一种方式来构建游戏产品线。
按照以往习惯,几乎每一代旗舰游戏显卡都脱胎于该架构的首款TITAN,所以当去年Volta架构的TITAN V如约而至时,我们每个人都认为已经看到了未来的下一代80Ti游戏旗舰的长相。
实际上TITAN V与初代基于Kepler的GeForce GTX TITAN已经相去甚远,初代TITAN的定位是一款万能显卡,既可作为游戏发烧友的旗舰游戏显卡,也为专业消费者提供全双精度浮点(FP64)计算能力。在TITAN V诞生之前,TITAN产品线几乎都是基于这种设计方法,一颗巨大的GPU核心是NVIDIA"高大全"设计思路的最好代表。
而在Titan V上,NVIDIA再次扩展了大核心的上限。Volta最引人注目的则是其全新的专用处理模块——Tensor Core(张量计算核心),它与Volta的其他微架构改进,以及支持深度学习和HPC(高性能计算)的软件/框架集成在一起,形成有史以来最大的815mm²核心,使得该系列产品比任何时候都更接近工作站级。

简单算一算就知道,TITAN V的GV100核心拥有5120个流处理器,与TITAN XP的GP102核心(3840个)相比增加了三分之一,但核心面积却增加了73%,再上工艺提升到了TSMC的16nmFFET提升到了12nmFFN,增加的晶体管比例更大。可见在GV100上增加了许多流处理器之外的新功能单元,还有一部分计算功能被分配给了专用单元以提高效率。
但是追求高大全也是有代价的,较低的良率和高昂的成本,使在GV100上发展游戏消费级显卡会得不偿失,AMD的Fury就是一个典型的反例,所以今天RTX 2080Ti采用的Turing架构是由GV100为蓝本发展而来的消费级专属型号。

与针对超算市场的GV100不同,RTX 2080Ti的Turing—TU102核心面积缩减到了754mm²,晶体管为186亿,改用封装容易的GDDR6显存,并具有一些新的属性。比如首当其冲的光线追踪—Ray Tracing算力,使它更适合用于运行游戏,计算卡与游戏卡或许从此走向两个分支。笔者将在下文中详细介绍关于Turing架构的重要技术升级。
新显卡的核心规格
首先来看这次新发布的两款显卡规格,我们已经知道了作为旗舰的RTX 2080Ti采用TU-102核心,就像上一代游戏旗舰采用GP102一样,准旗舰RTX 2080则使用规模小一圈的TU-104核心,它们都由TSMC的12nmFFN工艺制造。

TU102也由6个GPC构成,相比GV100每个GPC少了一组TPC,一共有36组TPC,72组SM,流处理器总数为4608个,ROPs总数为96个,纹理单元288个。以上都是传统的参数项目,不过Turing架构还加入了可以半精度计算与深度学习的张量计算核心Tensor Core以及专用于光线追踪的RT Core,此后显卡的主要核心功能单元项目又多了两个。其中Tensor Core为每个SM含8个,共576个,而RT core则每个SM含一个,与SM数量一致。
此外TU-102每个SM还有2个双精度单元,共144个(有观点称双精度计算也是由CUDA完成,只是寄存器的使用逻辑不同)。双精度算力为单精度的1/32,但这无关紧要,除了科学计算以外,无论是游戏用的GeForce RTX 2080Ti还是专业绘图用的Quadro RTX 6000/8000,都对此项性能没有要求。
说道Quadro,这里就必须强调一点,目前只有Quadro RTX 6000/8000才搭载了完整的TU-102核心,GeForce RTX2080Ti就像它的上代一样,进行了一定的削减,共减少了4个SM,流处理器总数为4352个,SM中包含或对应的其它单元也相应减少,显存位宽由384bit削减至352bit。让人有一点点失落,却也无可厚非,毕竟消费级显卡是要控制成本和保证产量的,这或许预示着不久的将来NVIDIA有可能推出比RTX 2080Ti更高阶的旗舰?

与TU-102一起发布的是TU-104核心,对应显卡为RTX 2080。前者拥有TU-102中所有新特性,包括RT Core、Tensor Core,以及对SM所做的架构改变。

完整的TU-104同样有6个GPC,每个GPC包含4个TPC,全核一共有48个SM,3072个流处理器。Tensor Core与RT Core的配比都没变,很容易推算出分别为384个和48个。

这里要泼大家一盆冷水了,RTX 2080没有像GTX 1080那样拥有一颗完整的“104”准旗舰核心,也是削减了2组SM,流处理器数量为2944个,显存位宽依然是256bit,完整的TU-104只用在Quadro RTX 5000专业卡上。考虑到TU-104的核心面积也达到了545mm²,不排除是为了加强成品率,但不管怎么说,104这个档位上得不到完整核心在心理上还需要时间去适应。
全新的流处理器簇单元(SM)
Turing架构采用了新的SM设计,该设计结合了早在去年Volta架构中就引入的许多特性。每个TPC包含两个SM,每个SM总共有64个FP32内核和64个INT32内核。相比之下,帕斯卡架构中每个TPC只有一个SM,每个SM 128个FP32内核,TPC的概念被架空了。TuringSM支持FP32和INT32操作的并行执行,独立线程调度类似于Volta GV100 GPU。
SM被划分为四个处理块,每个处理块具有16个FP32核、16个INT32核、两个张量核、一个调度器和一个调度单元。每个块包括一个新的L0指令缓存和一个64KB寄存器文件。四个处理块共享组合的96KB L1数据高速缓存/共享存储器。传统的图形工作负载将96KB L1共享缓存划分为64KB的专用图形着色器缓存以及32KB的纹理缓存和寄存器溢出区域。计算工作负载可以将96KB分成32KB共享缓存+64KB L1缓存,或者64KB共享缓存+32KB L1缓存。
Turing实现了核心执行数据通道的主要更新。现代着色器工作负载通常具有诸如FADD或FMAD之类的FP算术指令与诸如用于寻址和获取数据的整数加法、用于处理结果的浮点比较或min/max等更简单的指令的混合。每当这些非FP数学指令中的一个运行时,ATAPACH就会闲置。Turing在每个CUDA核旁边添加第二个并行执行单元,该CUDA核与浮点数学并行执行这些指令。

上图为整数管道与浮点指令的混合变化,但是一些现代应用程序中,通常会看到每100个浮点指令大约有36个额外的整数管道指令。将这些指令移到一个单独的管道上,就可以实现浮点的有效36%的额外吞吐量。
Turing SM中浮点和整数指令的并行计算
Turing的SM还引入了一种新的统一架构,用于共享内存、L1和纹理缓存。这种统一的设计允许L1高速缓存充分利用资源。与Pascal相比,每TPC增加2倍的命中带宽,并且允许在共享内存分配没有使用所有共享内存容量时重新配置L1高速缓存以增大命中带宽。Turing L1的大小可以高达64KB,与每个SM共享内存分配的32KB相结合,或者它可以减少到32KB,允许将64KB的分配用于共享内存,Turing的L2缓存容量也有所增加。

Turing SM新的L1数据缓存和共享内存子系统可显著提高性能,同时简化编程并减少达到或接近峰值应用程序性能所需的调优。将L1数据缓存与共享内存结合可以减少延迟,并提供比先前在Pascal 中使用的L1缓存实现更高的带宽。
根据官方资料,Turing架构SM设计的改变使得每个CUDA核心的综合性能比之前Pascal提升了50%。
深度学习单元Tensor Cores
我们都知道Volta GV100中首次引入的张量核心Tensor Core,Turing架构中的张量核心是前者的增强版本。它设计增加了INT8和INT4精确模式来测算可接受的工作负载,FP16也完全支持这种工作负载的精确测算。
在基于Turing的GeForce游戏核心中引入张量内核首次将实时深度学习引入游戏应用程序。Turing张量核心加速了NVIDIA NGX神经服务的基于AI的特性,增强了图形、渲染和其他类型的客户端应用程序的效率。NGX AI特性的示例包括深度学习超级采样(DLSS)、AI绘画、AI Super Rez和AI Slow-Mo。
Turing张量核加速了神经网络训练和推理函数的核心矩阵乘法。Turing张量核特别擅长于推理计算,其中有用的相关信息可以通过基于给定输入的训练有素的深层神经网络(DNN)来推断和传递。推理的例子包括识别Facebook照片中朋友的图像,识别和分类自驾车中不同类型的汽车、行人和道路危险,实时翻译人类语言,以及在线零售中创建个性化的用户建议,以及社交媒体系统。
TU102包含576个张量核心,每个张量核心可以执行多达64个浮点熔点乘加(FMA)操作,每个时钟周期使用FP16输入。SM中的八个张量核每个时钟周期总共执行512次FP16相乘和相加操作,或者执行1024次总FP操作。新的INT8精度模式以双倍的速率运行,每个时钟周期可达到2048次整数运算。

Turing张量核为矩阵运算提供了显著的加速,并且除了新的神经图形函数之外,还用于深度学习训练和推理运算。
首次应用GDDR6显存
显存子系统性能对应用加速至关重要。Turing改进主显存、缓存和压缩架构,以增加显存带宽并减少访问延迟。改进和增强的GPU计算特性有助于加速游戏和许多计算密集型应用程序和算法。新的显示和视频编码/解码特性支持更高分辨率和能够HDR的显示器、更先进的VR显示器、在数据中心中增加视频流需求、8K视频制作和其他视频相关应用。
GDDR6内存子系统
随着显示分辨率的不断增加,着色器功能和渲染技术变得更加复杂,显存带宽和容量大小在GPU性能中起到了更大的作用。为了保持尽可能高的帧速率和计算速度,GPU不仅需要更多的内存带宽,还需要大容量的内存来维持连续计算性能。
NVIDIA与存储产业紧密合作,两年前开发出世界上第一个GDDR5X显存的GPU:GP-104,紧接着又第一个开发出使用HBM2显存的GV-100。现在Turing再次成为首个使用GDDR6显卡的架构。
GDDR6是高带宽显存设计的最新成果。通过许多高速SerDes和RF技术的增强,Turing中的GDDR6显存接口电路已经完全重新设计,以实现速度、功率效率和噪声降低。这种新的接口设计带来了许多新的电路和信号训练改进,最大限度地减少由于工艺、温度和电源电压引起的噪声和变化。使用广泛的时钟门控来最小化低利用率期间的功耗,从而显著地提高了整体功率效率。Turing的GDDR6内存子系统目前可实现14Gbps的速率,相对使用GDDR5X显存的Pascal架构还有20%的功耗改善。
实现这种速度增长需要端到端的优化,为了满足更高的速度要求,NVIDIA特别设计了Turing的封装和布线,将信号串扰减少40%——这是大存储系统中最严重的不稳定因素之一。

为了实现14Gbps的速度,存储器子系统的每个方面也都经过精心设计,以满足这种高频操作所需的苛刻标准。设计中的每一个信号都被仔细地优化以尽可能建立最干净的显存控制器连接。
除了新的GDDR6内存子系统之外,Trime还添加了更大更快的L2缓存。TU-102附带6MB的L2高速缓存,是前一代GP-102 3MB的L2高速缓存的两倍。TU102还拥有比GP-102更高的L2高速缓存带宽。
VirtualLink与NVLink
在今天的PC上使用VR设备需要在头盔和系统之间连接多个电线;从显卡向头盔中的两个显示器发送图像数据的显示电缆;为头盔供电的电缆;以及传输位置传感器数据的USB连接。电缆的数量对于终端用户来说是很不舒服的,这会限制了他们在戴着头盔时四处走动的能力。
为了解决这个问题,NVIDIA将其中一个视讯输出端口设计为USB-C并得到SudialLink的硬件支持,叫做VirtualLink。VirtualLink能将VR头盔的供电、显示和回传数据整合到一个USB-C连接上。
Turing 引入的 USB-C 输出可以支持 HBR3 四信道 DP 支持或者 HBR3 双信道 DP+ 双信道 SuperSpeed USB3 支持。
而 VirtualLink 则跟进一步,在提供 HBR3 四信道 DP 的同时还支持 SuperSpeed USB 3 用于传输反馈控制信号。
USB-C 和 VirtualLink 都能为头盔供电,其中 USB-C 提供了 100 瓦的可选供电支持,而 VirtualLink 则是强制 5 瓦、可选 27瓦。
如果头盔的耗电在 27 瓦内,使用一根 VirtualLink 就能满足包括供电、显示、控制反馈,比目前的三根线要简单多了,而它的接口同样是 USB-C。
目前 VirtualLink 获得了 NVIDIA、AMD、微软、Oculus、Valve 的支持,但是 VR 头盔的重要厂商 HTC 并不在列。
NVLink使SLI得到升级
SLI是NVIDIA在2004年的时推出的多卡并行渲染技术,它可以让不同的显卡一起渲染画面并合并输出,实现性能的提升。早期的 SLI 根据产品定位的不同,分为需要和不需要使用桥连接器两种,使用桥连接可以绕过 PCIE 总线实现更快的画面合成。
但是现在 NVIDIA 已经把 SLI 定义为高端发烧级应用,像GeForce GTX 1060这样的中端显卡已经不再支持 SLI,若GTX 1060非要实现多卡并行的话,需要游戏使用显式MGPU代码才能实现。
所以,像Pascal或者说GeForce 10这一代显卡,只有GP104、GP102提供了SLI支持,它们都拥有SLI桥端口用于多卡并联。
GeForce 10使用的SLI桥接器叫做SLIHB,HB即高带宽的意思,其带宽是像素时钟频率0.65GHz乘3 字节(RGB各一个字节),合计约1.95GB/s 带宽。1.95GB/s(15.6Gbps)的带宽可以满足4K 60Hz(12.54Gbps)输出使用,但是遇到更高分辨率例如8K或者4K高刷新率的时候就会捉襟见肘。

TU-102和TU-104使用NVLink,而不是SLI GPU的MIO和PCIE接口到GPU数据传输。TU-102 GPU拥有两个x8第二代NVLink链路,TU104则拥有一个x8第二代NVLink链路。每个链路在两个GPU(50 Gb/s双向带宽)之间提供每方向25Gb/s峰值带宽。TU-102中的两个链路在每个方向上提供50Gb/s,或者双向100Gb/s。但凡具有NVLink的Turing GPU都支持双路SLI,但不支持3路和4路SLI。
不过就跟Pacal一样,Turing这一代也只有旗舰的102与准旗舰的104芯片支持NVLink,也就是说使用TU-106芯片的RTX 2070将无缘NVLink接口。关于RTX 2070的情况待到不久之后显卡上市时再为大家解析。

与以前的SLI桥相比,新NVLink桥的带宽增加使得以前做不到的高端显示器应用成为可能。

NVIDIA原厂桥接器价格不菲,零售价70美元以上,专用于搭配公版RTX 2080Ti、2080的使用,装上去天衣无缝,不考虑颜值的话,应该还有廉价的软桥或硬桥可供选择。
什么是光线追踪,什么又是实时光线追踪?
自上世纪90年代以来,传统的3D渲染一直使用一种叫做光栅化的过程。整个过程简单地描述就是光栅引擎根据顶点渲染生成的三角形以人眼所接收到的二维画面来创建需要渲染的图像,接着将纹理数据按坐标铺入该图像中的三角形,得到完整的画面数据,再由ROPs将完整的画面数据填充到屏幕所看到的像素。
光栅化技术多年来一直是实时渲染的常规技术,尤其是在游戏中。虽然今天许多光栅化场景看起来已经足够好了,可是基于光栅化的渲染局限性依然无法避免。例如,仅使用光栅化呈现反射和阴影需要对需多不同视角进行假设和分析。常见的情况是静态光图可能看起来是正确的,若某些东西移动,光栅化的阴影经常出现混淆和光泄漏,亦或者画面上任何物体的反射只能反射出屏幕上可见的物体。这些现象都有损于游戏体验的真实性,而且开发人员在光栅化的基础上重新编程修复这些BUG的代价很高。

光线追踪技术长期以来被用于非实时绘制,它通过模拟光的物理行为来提供逼真的光照。光线追踪通过跟踪光从观看者的眼睛穿过虚拟3D场景时将采取的路径来计算像素的颜色。当它穿越场景时,光可以从一个物体反射到另一个物体(引起反射),被物体阻挡(引起阴影),或者穿过透明或半透明物体(引起折射)。所有这些相互作用被组合以产生然后在屏幕上显示的像素的最终颜色。

这一种计算工作十分繁重的渲染技术,它真实地模拟场景及其对象的光照。能够实时地渲染物理上正确的反射、折射、阴影和间接照明。相比传统的光栅化渲染,光线追踪技术创造的景象更符合人眼和大脑接受的视觉逻辑,视神经原本就是靠自然界的可见光反射来识别图像的。因为效果出众,这项技术早就被应用在了图像渲染中,但非实时渲染,而是制作CG、电影。
所以光线追踪与实时光线追踪是两个概念,制作CG时我们有一整天的时间去渲染一帧画面,但是在游戏中一帧画面只能耗时几十分之一秒,否则就会影响流畅度。在过去,GPU的算力远不足以使用单个核心对游戏进行实时光线追踪,使这项耳熟能详的技术一直无法应用在游戏中。需要30~90fps才能畅爽体验的游戏多年来一直依赖于快速的光栅化渲染,只能放弃电影般的逼真画面。

直到NVIDIA Turing架构问世,使通向游戏渲染技术殿堂的那条路头一次变得清晰起来。
图灵如何实现光线追踪
NVIDIA在Turing架构的每个SM中新增RT Core是迈向实时光线追踪的关键,硬件加速是实现这一目标的唯一途径。

为了更好地理解RT核的功能,以及它们究竟加速了什么,笔者首先解释如何在没有专用硬件光线追踪引擎的情况下用GPU或CPU执行光线追踪。基本上,BVH遍历的过程需要通过着色器操作来执行,并且每光线投射数以千计的指令槽来针对BVH中的边界框交点进行测试,直到最终命中三角形,并且交点处的颜色将被用于最终像素填充。或者如果没有三角形被击中,背景颜色可以用来填充这个像素,这样就做到了模拟现实世界中人眼的视觉原理——你只能看到反射光的物体。
没有硬件加速的光线跟踪要求每条射线有数千个软件指令槽来测试BVH结构中的连续较小的边框,直到可能碰到一个三角形。这是一个海量计算的过程,使得在没有基于硬件的光线跟踪加速度的情况下,无法在GPU上进行实时处理,速度奇慢无比。
Turing的RT内核可以处理所有的BVH遍历和射线-三角形相交测试,节省了SM在每条射线上花费数千个指令槽,这对于整个场景来说可能是无法承受的巨量指令。RT核心内有两个专用单元,第一个单元进行边框回归测试,第二个单元进行射线三角形相交测试。SM只需要启动一个光线探测器,RT核进行BVH遍历和射线三角形测试,并向SM返回命中或不命中,SM本身即可被充分释放来做其它图形计算工作。

因此RT核的Turing光线跟踪性能比上一代Pascal依靠软程序实现的快得多。Turing可以在不同的工作负载下提供比Pascal更多的千兆射线/秒,比如Pascal大约花费1.1千兆射线/秒,或者10TFLOPS/千兆射线在软件中进行光线跟踪,而Turing可以使用RT Cores进行10+千兆射线/秒,并且运行速度要快10倍。
尽管光线跟踪比光栅化可以产生更逼真的图像,但它也是负荷很高的运算,目前单靠RT Core依然无法用完全的实时光线追踪来流畅运行游戏,最好的方法是混合渲染,用光线跟踪和光栅化组合。使用这种方法,将光栅化用在需要效率的地方,而光线跟踪用在比光栅化更多能增加逼真度的视觉增益区域,如反射、折射和阴影。
深度学习抗锯齿(DLSS)
在现代游戏中,渲染帧不直接显示,而是经过后处理图像增强步骤,结合来自多个渲染帧的输入,试图去除视觉伪像,例如混叠,同时保持细节。例如,时间抗锯齿(TAA)是一种基于着色器的算法,该算法使用运动矢量结合两帧来确定在何处采样先前帧,这是当今使用的最常见的图像增强算法之一。然而,这种图像增强处理从根本上来说是非常困难的。
诸如此类的图像分析和优化问题没有没有干脆利落的算法解决方案,唯有应用人工智能。正如图像处理案例,是深度学习的最大成功应用之一。现在,深度学习已经实现了超人的能力,能够通过观察图像中的原始像素来识别狗、猫、鸟等。在这种情况下,目标是结合渲染的图像,基于查看原始像素,以产生高质量的结果,不同的对象,但由近似的步骤完成。
为解决这一挑战而开发的深度神经网络(DNN)被称为深度学习超级采样(DLSS)。DLSS从给定的一组输入样本中产生比TAA高得多的质量输出,并可以利用此能力来提高总体性能。尽管TAA在最终目标分辨率下进行渲染,减去细节,组合成每一帧,DLSS允许在较少的输入样本计数下进行更快的渲染,然后推断出在目标分辨率下与TAA相似的结果,仅需一半的着色工作。

以上为虚幻4引擎的《渗透者》DEMO测试,DLSS提供了与TAA相似的图像质量,性能大大提高。RTX 2080 Ti本身的强大渲染性能,加上Tensor Core进行DLSS操作带来的性能提升,使4K分辨率下RTX 2080 Ti达到GTX 1080 Ti性能的2倍。
这个结果的关键在于DLSS的学习过程,DLSS有机会学习如何基于大量超高质量的采样产生应有的画面输出。64x超级采样意味不是对每个像素进行一次着色,而是在像素内以64个不同的偏移进行着色,然后组合输出,产生具有理想细节和抗锯齿质量的结果图像。接下来,DLSS还可以学习来匹配64xSS输出帧,通过遍历每个输入,要求DLSS产生一个输出,测量其输出和64xSS目标之间的差异,并根据这些差异调整网络中的权重。在多次重复之后,DLSS自己学习以产生接近64xSS质量的结果,同时学习避免影响经典抗锯齿(如TAA)的模糊、去遮挡和透明性的问题。

除了以上描述的标准DLSS模式,还有第二种模式,称为DLSS 2x。在这种情况下,DLSS输入以最终的目标分辨率呈现,然后由较大的DLSS网络组合以产生接近64x超级抗锯齿的输出图像,这果不可能通过任何传统手段实现的。

以上测试场景中展示了最具说服力的对比效果。游戏中半透明的全系屏幕漂浮在不断移动的背景前面。TAA倾向于盲目跟随运动对象的运动矢量,导致屏幕上的细节也被模糊了。DLSS则能够识别场景中更加复杂的变化,并以更智能的方式组合输入,避免了模糊问题。
RTX 2080Ti/2080开发者版本解析(一)
RTX 2080Ti与2080的长什么样子相信大家都不陌生了,从NVIDIA官方公布消息开始就有若干官图出现在各大媒体上。但官图毕竟灯光刁钻,后期满满,细节看不太清楚,下面就由笔者用三页的篇幅献出一套刚出炉实物图供各位鉴赏。
由于RTX 2080Ti与2080外观几乎一模一样,所以下面以展示RTX 2080Ti为主,在两者不同的部分予以补充图片说明。




以往离心式散热器的封闭气流通道可以直接将热量排向出机箱外,尽可能降低显卡对机箱散热的要求,提高适用范围。如今NVIDIA终于摒弃了这个过于苛求可靠性的思路,转而借鉴了非公版的设计思路,也用起了双轴流扇。确实,在机箱风道得当的前提下,轴流扇的散热效能明显超过尺寸受限的离心扇 ,更有利于Boost超频的机制充分发挥。
或许正是因为如此,NVIDIA这次才在一个型号上推出了RD和FE两种公版,前者为参考设计版,Reference Design也就是指原来的公版,而后者Founders Edition则拥有更高的频率,变成了NVIDIA的官方超频版。看来老黄是铁了心要跟小伙伴们抢肉吃啦。
不过RD和FE版本之间仅仅是核心Boost频率不同,基础频率是一样的。其中RTX 2080Ti的RD版为1545MHz,FE版为1635MHz,高了将近100MHz,基础频率都是1350MHz,显存都是GDDR6 14Gbps。
RTX 2080Ti/2080开发者版本解析(二)
公版的NVLink接口自带一个与背板融为一体的装饰盖,平时起保护金手指的作用,在组双路SLI时可以拿下来。





这里要说明的是,RTX 2080也分为RD和FE版,区别也只在于Boost频率,前者为1710MHz,后者是1800MH,基础频率都是1515MHz,GDRR6显存容量8GB,速率也是14Gbps。

其中DP1.4支持8K HDR @60Hz,HDMI则支持 4K HDR @60Hz,USB-C转为整合VR设备而研发,前面技术解析部分有详细介绍。
RTX 2080Ti/2080开发者版本解析(三)
到了拆解环节,这次的公版设计,背板螺丝非常小,跟米粒一样,内层的散热器固定还要用到六角套筒,至少需要三种工具,更重要的是原厂安装的导热硅胶垫极易破碎,笔者拆开基本就碎了一半,几乎是一次性的。所以除了那些有充分的经验、准备以及动手能力的老鸟,笔者非常不建议用户自行拆解公版,硅胶垫的缺失会让显存、MOSFET散热受阻,极有可能造成硬件损坏。


核心规格差了许多,显存位宽不同,两款PCB的布局必然不同,但它们尺寸是相同。RTX 2080Ti安装了11颗显存,留出一个空焊位,这根GTX 1080Ti是一样的。RTX 2080也与GTX 1080相同,都是8颗显存。





根据常识来判断,RTX 2080Ti采用了6+7相核心供电,左侧6相,右侧7相,还有三相为显存供电。MOSFET采用的应该是有自驱设计的DrMOS,能够一定程度上缓解布线的拥挤。再经过仔细观察,似乎两侧的供电分别有各自独立的PWM主控,可能引入了智能电源管理设计,根据GPU的功耗来变化功率IC的工作模式,减少发热。
影驰RTX 2080 GAMER
影驰RTX 2080 GAMER采用了全新的外观设计,专为高端电竞玩家、MOD爱好者量身打造,最大亮点是全新Turing架构TU104-400A核心、支持RTX光线追踪、DLSS智能抗锯齿、非公设计方案、极光幻影灯效、软控调灯、一键OC、影驰GAMER全家桶灯效同步。






影驰RTX 2080Ti大将
影驰RTX 2080Ti 大将采用了全新的包装与内衬设计,定位主流市场,最大亮点是全新Turing架构TU102-200核心、支持RTX光线追踪、DLSS智能抗锯齿以及区别于公版的三风扇设计与镂空金属背板。
在显卡外观的设计上,影驰RTX 2080Ti大将区别于公版,采用6热管三风扇设计,散热效能更强,顶测设有三段式RGB呼吸灯,未来配合影驰光效软件可与其他影驰产品达成灯效同步,搭配镂空设计的强化金属背板,散热性能再度提升,并有效保护PCB。





微星RTX 2080暗黑龙爵
微星新款暗黑龙爵系列显卡在外观设计方面采用银黑配色,别致的流畅线条和锋利外形,充满时尚美感。显卡背面装备了表面拉丝处理的黑色强化金属背板,银色信仰龙标分外引人瞩目,颜值爆表。




微星RTX 2080Ti GAMING TRIO魔龙
微星新款GAMING TRIO魔龙系列显卡采用黑色和铁灰色混搭的时尚设计,配合流线造型和拉丝纹理金属背板,更显优雅大气。同时显卡正面和侧面都具备华丽的RGB灯效,通过微星Mystic Light软件还能和其他RGB组件一起实现灯效同步,打造更具个性化的游戏氛围。





非公版同步发售:索泰RTX 2080Ti X-GAMING-OC
X-GAMING-OC是索泰显卡主打游戏市场的拳头产品,它在同型号中通常价格适中,性能处于中位。紧随GeForce 20系列显卡发布,索泰第一时间推出这款型号的RTX 2080Ti旨在造福游戏玩家。熟悉索泰的玩家可能对至尊版印象颇深,而这款X-GAMING-OC实际上是在至尊版基础上发展而来,用料,散热都与至尊版十分接近。





非公版同步发售:技嘉RTX 2080Ti GAMING OC
各大NVIDIA合作伙伴都在第一时间推出游戏向的图灵显卡,技嘉也不例外。技嘉的GAMING OC是一直是显卡市场上最炙手可热的型号之一,它的精髓不在于奢侈地堆料或华丽的外观,而是看似平白无奇却又包含底蕴的设计细节。





非公版同步发售:iGAME RTX 2080Ti Advanced OC
脱胎于七彩虹的高端子品牌iGAME依然保留着最初"玩家定制"的精神,他们一直孜孜不倦地想玩家之所想,忧玩家之所忧,切身处地的体会玩家的体验,因而在许多其它品牌不经意间忽略的小细节上往往能一鸣惊人,出奇制胜。




非公版同步发售:耕升RTX 2080炫光
耕升现在是个低调又务实的品牌,它最近几年设计了许多高性价比的产品,了解耕升历史的人都知道这个品牌曾经的辉煌,而如今显卡行业列强林立,耕升确实不再像昔日那般鹤立鸡群,但是他的产品却从未掉队。




测试平台软硬件配置介绍
所有该介绍的都介绍完了,终于要迎来最后的高能时刻,笔者已经抑制不住内心的激动,笼罩了一年的迷雾终于要拨云见日,废话少说,立刻进入上机测试环节。
除了3DMARK基准跑分之外,笔者还准备了20款具有代表性的单机游戏大作来考验Turing架构的性能,并分别将RTX 2080Ti和2080与GTX 1080Ti和GTX 1080对位比较。游戏测试分辨率将涵盖1920×1080、2560×1440以及3840×2160三种分辨率,游戏画面设置为最高,抗锯齿开启。
我们知道GTX 1080Ti基本征服了2K分辨率,在1080P下已明显呈现性能过剩,那么这次4K分辨率将成为更强大的RTX 2080Ti挑战的焦点,也是本次首测游戏部分最大的看点。不过这里有个遗憾,就是硬件技术通常会领先软件发布,尽管NVIDIA公布了25款游戏支持DLSS还有5、6款游戏同时支持DLSS和光线追踪,但实际上是"将要支持",真到能用还有待游戏厂商更新补丁。
最后笔者按例还会进行功耗和散热的测试。


这里需要说明的是,为了充分发挥显卡性能,尽可能消除系统瓶颈,笔者将测试平台的CPU i7 8700K全核超频至4.8GHz,Ring频率与主频同步。
测试平台软硬件配置如下:


RTX 2080Ti 3DMARK跑分测试




相比GTX 1080Ti,RTX 2080Ti的跑分提高了25%到30%左右。
RTX 2080 3DMARK跑分测试




RTX 2080的跑分相比GTX 1080也提高了30%左右,与GTX 1080Ti的得分非常接近。看来当年GTX 1070逼平GTX 980Ti的辉煌是难以重现了,不过这次常规性能提升相对Turing的重大架构革新,确实只占一小部分。
接下来让我们看这两款Turing显卡在游戏中的表现如何
游戏测试汇总分析

1080P分辨率显然已经不属于RTX 2080Ti的战场,有将近三分之一的游戏RTX 2080Ti、RTX 2080和RTX 1080Ti差别不大,甚至个别几个游戏四款显卡的帧率都区域一致。RTX 2080总体上比1080Ti要强一点,极个别游戏会反转,也不排除是显存规格的问题,前者的弱项主要在于此。这个分辨率下高端显卡想有更多建树,更依赖于CPU的提升,问题是测试平台的CPU还是手动超了频的,性能已经是目前消费级产品中的佼佼者了。

2K分辨率下,显卡负载加大,四款显卡有摆脱焦灼的迹象,拉开了少许差距。RTX 2080与GTX 1080Ti依然在伯仲之间。同时我们还观察到,RTX 2080Ti在大多数游戏中的帧率竟然跟1080P分辨率下差之毫厘吗,可能真的只有4K分辨率才能满足它的胃口了。

4K分辨率下四款显卡的性能被彻底拉开,RTX 1080Ti至少在其中一半的游戏中帧率不低于60fps,其余游戏也在40~60fps之间,而且其中也以第三人称RPG游戏居多,对于这类游戏而言,RTX 2080Ti的表现足够给予玩家基本流畅的体验。而且笔者在4K分辨率测试汇总是开了一定抗锯齿的,日后当DLSS技术在游戏中普及,同样抗锯齿下性能将进一步得到释放。
关于GTX 1080Ti与RTX 2080,仍然不相上下,格局没有明显变化。
散热与功耗测试
最后一项测试是散热与功耗,进气入手的玩家要仔细看了,你的电源、机箱是否合适。


满载比待机提高了260W左右,当然待机本身也有功耗,如果减去满载时平台其它硬件的耗电,加减平衡,差不多等于NVIDIA官方宣称的TDP 260W。

对于一个754mm²的超巨核心来说,这个温度表现令人惊喜,全新的双风扇散热方案功不可没,这已达到大多数高端非公版散热的水准。


RTX 2080满载比待机也提升了250W左右,两者的满载功耗倒是相差不大。RTX 2080 FE的官方TDP是225W,减去满载时平台增加的耗电,在考虑到相对较小的核心待机时更为省电,所以和官方数据也八九不离十了。

Turing的公版散热方案有很好的温控能力,尽管发热量比RTX 2080Ti小,满载时风扇的转速比比RTX 2080Ti低一些,维持在相同的温度区间,换取更好的静音效果。
编辑点评
NVIDIA新一代Turing架构的两款新品,旗舰RTX 2080Ti与准旗舰RTX 2080的首发测试到这里就全部告一段落了。从常规性能上来说,Turing相对上一代Pascal的提升算中规中矩,其中RTX 2080Ti基本满足了心理预期,而RTX 2080稍微差点儿意思,当然这跟它没有用上完整的TU-104核心脱不开关系。
两款显卡与上一代对位产品相比,基本都达到了30%左右的提升,放眼NVIDIA显卡发展史来看,也完全在合理范围内,毕竟每一次升级的侧重点不同,笔者在上文中也强调了,常规性能提升只是Turing利好的一部分,其主要价值在于整个架构的开创性进步。
说到架构进步,就不得不说一下其中最为核心的属性光线追踪,这项技术的应用,意义丝毫不亚于G80首次支持DX10和GF100首次支持DX11,但同时跟后两者一样,第一代应用新技术的硬件,在该技术上的性能总是不够充沛的,这是必然规律,谁都难以跳出。所以这项技术的象征意义暂时大于实用意义也是难以避免的,或许这得等到NVIDIA第二代光线追踪芯片诞生之后。
关于DLSS,就目前测试DEMO中的表现来看,这确实是一项解放性能的神技,用它在4K分辨率下开启抗锯齿将得到完美的精致画面,且预计未来中低端显卡也不用再一直忍受锯齿的折磨,现在就待游戏的完善与支持。

RTX 2080Ti售价9500元左右,RTX 2080售价6500元左右。我们都知道,每次显卡升级换代时,新一代显卡能媲美上一代更高定位的产品是很常见的,为了不挡老卡的销路,新卡通常都会在一段时间内定一个比同性能老卡略高的价位,就像这次的RTX 2080。随着老卡的停售,新卡也会逐渐回落到符合其身份的价格,但这次情况有些不妙,我们看到NVIDIA路线图中RTX 2070将使用TU-106核心,这预示着NVIDIA的GPU将引来第二次定位抬升。第一次还是在Kepler时代,老黄面对毫无竞争力的A卡,愉快地将GK104核心用在了GTX 680上,原本只是一个甜品级的GPU就摇身一变成了准旗舰,而后甜品自然也就不再甜蜜。
现在本人只希望GTX 1080Ti和1080两位前朝元老隐退后,Turing新贵能回归原本属于它定位的价格,而不是在性能超越上代高阶的同时,连它的售价一并超越,否则照这样水涨船高下去,恐怕有一天X050也要卖到5000了。