◆ 更多的流处理器,最为直观的性能提升
与上一代G80和G92相比,GeForce GTX 280的SPA(流处理器架构)架构让GTX 280的性能更强劲,主要表现在两方面:1、GTX 280把每个TPC中的流处理器数量从2组提高到了3组;2、GTX 280把每个芯片中的TPC的最大数量由原来的8个提高到了10个。这样的效果是相乘的,最终让GTX 280的流处理器数量达到了240个。
GTX 280基于传统的流处理器设计,该设计模式可以整数运算以及浮点运算,存储操作,和逻辑算符,每一个流处理器都是一个多线程硬件处理器,这样的处理器将内建级流水线,每一条线程可以执行一条指令。GTX 280的渲染流程包括顶点shaders、像素shaders、几何shaders以及compute shaders,对于显卡的流处理器,为了获得更多的效能,线程在执行一个shader程序时,其他很多相应的线程经常也会同时执行相同的shader程序。
『一个TPC单元包括3组流处理器(每组8个),10个TPC单元一共240个流处理器』
与CPU的die面积很大程度上被缓存占据不同,所有的GeForce GTX 200显示核心大部分的die面积上内建了更多的流处理器。粗略估计一下,CPU 20%晶体管专门负责运算(有很大一部分面积被缓存占据),而GPU负责运算的晶体管占所有晶体管的80%。GPU工作时主要会集中于计算和运算能力,而CPU主要是降低延迟以及让CPU的管线处于繁忙状态。
◆ 处理器架构
我们以前说过,GeForce GTX 200 GPU包括两个不同的架构模式:绘图和运算。下图就是GeForce 280 GTX的绘图架构,图最上方就是shader线程分派系统,包括设置引擎。通过图示可以看出,GTX 200 GPU一共具有10个TPC,每个TPC又具有3个SM,每个SM又具有24个流处理器,最终组成240个流处理器。图的下方显示的是ROP (raster operations processors)和显存界面单元。
『GTX200核心架构图,一共10个TPC单元,下面有8组Rop单元』
简单的逻辑架构图,下面的Rop单元直接连接本地显存,G80仅仅包括6组Rop单元,所以同样是64bit的控制,GTX 280实现了512bit的显存位宽。NVIDIA一贯坚持交叉方式的显存控制方式,这一次也不例外,不同于ATI的环形总线架构,交叉方式的显存控制方式更难于增加显存位宽,但是实现位宽的增加,性能应该有大幅度的增加。