◆新的SIMD架构优势带来万亿次浮点性能
ATI在核心架构的设计上一直保留着SIMD的设计思路,虽然在遇到分支预测时,SIMD的效率会降低,但是SIMD的浮点运算的优势确实非常大的。RV770依靠其800个流处理器的性能,可以达到惊人的万亿次的浮动运算能力。而RV770在基本保持R6XX架构的设计思路上,大量的增加了流处理器数量,这使得RV770的浮点运算能力又得到了飞跃式的提高。强大的浮点运算的性能在GPGPU(通用目的计算的GPU)上发挥很大的作用。尤其在依赖密集计算的科学运算领域,GPU依靠超强的浮点运算性能将大大超越CPU的运算速度。
『SIMD架构让RV770的浮点性能更强』
◆大量增加并优化纹理单元,游戏最直接受益
实际的渲染处理完全依赖于硬件能力,像素渲染的性能主要取决于像素流水线的数量,因此ATI就将像素渲染单元方面的加强作为技术改进的重点。不过竞争对手NVIDIA的G80/G92的纹理单元达到了32个。事实证明目前仍然有很多游戏对于纹理处理有一定的要求,因此ATI此次也为RV770增加了纹理单元,有RV670的16个直线增加到了40个。
从R600和RV770的架构图中可以看到纹理单元从原来的4个增加到了10个(每组4个纹理处理器)。由于R600已经在纹理单元内部结构上进行了比较大的革新,因此RV770的纹理处理器上并没有太大的变化,只是进行了一些优化。纹理处理对于寄存器的依赖比较大,因此ATI给RV770的纹理单元依然配备了较大的多层纹理缓存设计。从架构图上我们可以看到,大容量、共享式二级缓存存储一级缓存无法容纳的数据。在寄存器上数据读写方面RV770相比以前同时也有进一步的改进,以提高纹理缓存的效率。
◆优化render back-ends设计
其实ATI的render back-ends部分就相当于NVIDIA GPU中的ROP部分,主要负责图形输出的后处理。在RV770上render back-ends的单元并没有增加,但是ATI还是为其进行了进一步优化,尤其是在进行AA反锯齿时,新的render back-ends部分将能比以前进一步提升效率。
◆强化几何Shader(GS)& 可编程镶嵌几何单元设计
在DirectX 10规范中几何Shader承担起了较为复杂的三角形生成的任务,尤其在实现复杂的烟雾、爆炸、皮毛、毛发等图象处理更为方便,甚至可以模拟一些简单的运动轨迹等,而这些操作很多时候已经不再需要CPU的干预,以更好的发挥系统的3D效率。在RV770核心中几何Shader单元也得到了进一步的加强。不过ATI具体没有透露具体的实现方式。
RV770中的镶嵌几何单元升级为可编程模式,相比R6XX中的非可编程单元更加灵活。实际上镶嵌几何单元与几何Shader的操作相似,都是几个控制点来描述曲面。不同的是,镶嵌几何单元只能把三角形进行“细化”,它的工作范围在三角形内部,而几何Shader可以生成新的三角形。