您好，欢迎访问仪器信息网

搜全站

搜展位

富瑞博国际有限公司

关注

已关注

已认证

粉丝量 0

全部分类

首页

NVIDIA GeForce RTX3080显卡性能怎么样？富瑞博代理

金贝矿机-富瑞博

2021/12/24 17:48

阅读：32

全新的NVIDIA Ampere GPU核心拥有280亿个晶体管，628平方毫米的面积，基于三星的8nm NVIDIA定制工艺，来自美光的GDDR6X显存，以及我们上面说的，三大处理核心均为初代Turing的两倍速率，构成了有史以来性能最强大的Ampere。

而NVIDIA Ampere架构的强大性能并不是NVIDIA一蹴而就，可以说在20系显卡中所采用的Turing架构功不可没，下面我们先来看看完整的GA102核心。

双倍加量不加价 NVIDIA RTX 3080显卡首测
完整的GA102核心

完整的GA102 GPU包含7个GPC（图形处理集群）42个TPC（纹理处理集群）以及84个SM（流处理器）组成。GPC是占据主导地位的高级模块，拥有所有的关键图形处理单元，每个GPC包含一个专用光栅引擎。在新的NVIDIA Ampere架构中，每个GPC还包含了两个ROP分区，每个分区包含8个ROP单元。下面我们来看看每个SM单元的变化。

双倍加量不加价 NVIDIA RTX 3080显卡首测
SM详解

在每个SM中，包含四个大的处理分区共128个CUDA核心，4个第三代Tensor Core，1个第二代RT Core，1个256 KB的缓存文件，1个128 KB的L1缓存，这个L1缓存可以根据不同的工作需求来调配缓存，工作效率发挥至最大。

另外大家都知道本次RTX 3080的CUDA数量暴增至8704个，而RTX 3090的CUDA数量更是达到了惊人的10496个，但是大家要知道专业计算卡Tesla A100的GA100核心，拥有更大的核心面积，更多的晶体管数量，理论上只有8192个CUDA，那RTX 3080又是如何达到这种效果的呢？

其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元，这就使得每个SM的FP32运算单元数量提高了一倍。

双倍加量不加价 NVIDIA RTX 3080显卡首测
完整的GeForce RTX 3080核心

而通常我们计算显卡的CUDA数量，并不是把SM中的所有单元加起来计数，而是只统计FP32单元的数量，所以这样一来答案就显而易见了，SM中的FP32 : INT32 从 1:1 变为 2:1，如RTX 3080的8704个CUDA，其实它只有4352个INT32单元，但由于内部的FP32数量翻了一倍，所以最终实现了8704这个惊人的数字。

不过这样究竟算不算“虚标”？其实对于现在的游戏来说，浮点运算相比整数计算要常用的多，所以翻倍的FP32真的能带来性能翻倍的提升。

双倍加量不加价 NVIDIA RTX 3080显卡首测
光追工作原理示意

在此次的NVIDIA Ampere架构中，NVIDIA官方宣布为第二代RT Core，它和第一代有什么不同呢。首先要知道RT Core的工作原理是，着色器发出光线追踪的请求，交给RT Core来处理，它将进行两种测试，分别为边界交叉测试（Box Intersection testing）和三角形交叉测试（Triangle Intersection testing）。基于BVH算法来判断，如果是方形，那么就返回缩小范围继续测试，如果是三角形，则反馈结果进行渲染。

而光线追踪最耗时的正是求交计算，因此，要提升光线追踪性能，主要是对两种求交（BVH/三角形求交）进行加速。

双倍加量不加价 NVIDIA RTX 3080显卡首测
RT Core的变化

在Turing的RT Core中，可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块，这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。

双倍加量不加价 NVIDIA RTX 3080显卡首测
运动模糊渲染原理

第二代RT Core可以让光线追踪与着色同时进行，进行的光线追踪越多，加速就越快，它将光线相交的处理性能提升了一倍，在渲染有动态模糊的影像时，按照NVIDIA自己的实测，比Turing快8倍。

双倍加量不加价 NVIDIA RTX 3080显卡首测
稀疏深度学习

除了光线追踪的强化，Ampere架构的Tensor Core也得到了极大地加强，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自动识别并消除不太重要的DNN（深度神经网络）权重，同时依然能保持不错的精度。

首先原始的密集矩阵会经过训练，删除掉稀疏矩阵，再经过训练稀疏矩阵，从而实现稀疏优化，进而提高Tensor Core的性能。

双倍加量不加价 NVIDIA RTX 3080显卡首测
第三代Tensor Core的处理能力大大提升

所以最终的结果就是Tensor Core在处理稀疏网络的速率是Turing的两倍，算力高达238 Tensor TFLOPS，而Turing为89 Tensor TFLOPS。

同时在发布会中，黄仁勋还提到了一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间，对于存储空间的负担暂且不提，但存放在硬盘中的数据，如果显卡想要读取到，需要先由CPU从硬盘中读取压缩过的数据，经过解压缩再发送到显存中。

双倍加量不加价 NVIDIA RTX 3080显卡首测
传统的数据交换

在这个过程中，会占用多个CPU核心，压力急剧增大，占用较多的内存，而此时其实GPU是处于闲置状态的。RTX IO的作用就是越过CPU解压再传输数据这一步，直接从PCIE总线读取硬盘上经过压缩的数据，并且完成解压，降低CPU占用，变向提升了性能。

双倍加量不加价 NVIDIA RTX 3080显卡首测
RTX IO可以极大解放CPU负担

当然这项技术作为系统底层的运行方式改变，还需要借助微软发布的DirectStorage来实现，对于目前容量的游戏来说，RTX IO的改善效果有限，但假以时日等游戏容量上百G成为常态的时候，这项技术将会发挥巨大的功效。

双倍加量不加价 NVIDIA RTX 3080显卡首测
GDDR6X

在RTX 3080中，采用了GDDR6X显存，GDDR6X拥有320bit的位宽以及19Gbps的带宽速度，与采用GDDR6的Turing相比可提升40%的速度，在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。这对于需要大量数据负载的工作尤为重要，如光线追踪的游戏、AI学习和8K视频渲染。

同时搭配新增的HDMI2.1接口，可以支持单线8K的视频输出，而上一代HDMI2.0仅支持4K 98Hz的视频输出，如果想要连接8K电视，则需要更多的线缆支持。