770架构中,容易被忽视,但是最为重要的改动
RV770架构中,容易被忽视,但是最为重要的改动关于RV770,目前谈论得较多的是shader和TMU、ROP部分的增强,实际上,这些只是表象性能提升固然来源于运算资源的增加、架构的改善、瓶颈的清除,但是大家在津津乐道的谈论RV770运算能力的时候,请不要忘记背后支撑着一切的部件,这就是内部互联总线、交换开关、内存控制器
如果把线程调度器比作GPU的大脑,SP、TMU、ROP比作GPU的肌肉,那么内部互联总线和各种交换开关就是GPU的骨架。一个出色的GPU,必然有着最强健的骨架,是一个从最底层开始就牢不可破的结构。
典型的例子就是G80 vs R600
R600为了冲击当时在当时工艺制程下并不成熟的512bit memory bus,在内部互联使用了ringbus结构。实际上ringbus总线的数据延迟要比传统的crossbar总线大得多,传输路径也更为繁琐。ATI之所以选择它仅仅是因为ringbus layout更加方便,而且所占的晶体管较少。目前业界公认的最高效率的互联结构依然是xbr(crossbar)。而G80选择了较妥协的384bit Crossbar总线,在内部各部件之间的通信效率上,G80要比R600高得多。
GPU存储器方面的技术,个人一直认为ATi和NV不相上下。ATi在HSR等带宽节约技术方面造诣深厚,Radeon 256产品就首次引入了H-Z设计。而NV则在高速互联总线、MC本身的硬件设计方面占有不小优势。nForce芯片组上的内存控制器效率、南北桥互联总线(HTT)也一直是一流的。这个从GF3 vs Radeon 8500时代开始就一直延续下来了。
不过,在RV770上,这个天平已经被打破,那就是AMD的介入。
众所周知,AMD在高速互联总线、高速交换开关、内存控制器上的造诣无不是业内顶尖水准。在nehalam发布之前, 民用CPU领域中K8架构的互联总线优势领已经先了5年的时间,而K10至今也凭借这一优势能在多路系统中痛击Xeon。
在RV770中,AMD决定将这些优势引入到GPU领域,重新改造R6XX架构。RV770的改进包括: 引用:
1. 彻底摒弃R6XX的ringbus总线,使用AMD擅长的crossbar总线
从图中可以看到,第二级链路使用了Crossbar总线代替了Ringbus,AMD没有给出太多的具体数据,不过从384GB/S的互联带宽上来看,这个总线已经非常强大。R600使用的1024bit内部ringbus互联,带宽也没有超过300GB/S,RV670就更少了。更为重要的是,Crossbar总线相比ringbus,会极大的降低延迟(RV770在这方面的改善目前没有具体数据),GPU的大多数操作,如cacahe miss后的tex fetch,或者是带顶点数据的VTF操作,都可以更加迅速、快捷的从L2获得数据,低延迟也会减轻multi-threading的压力。
引用:
2. 在第二级互联链路中使用更加高效的switch hub交换中心结构
这张图看起来非常类似于双核心K8的I/O设计,同样的,AMD现阶段不会给出它的详细规格数据。不过从图上推测,各个部件应该可以通过这个高速互联开关,任意的访问其他设备并且操作之间不会相互影响,switch hub很可能还带有优先级判断和仲裁功能,能为最要紧的I/O请求开绿灯。并且最重要的————它的延迟肯定比ringbus ringstop station低几个数量级。
引用:
3. 新的内存控制器
AMD并没有提到内存控制器改动方面的细节。不过这张图还是泄露了一些信息。AMD表示,RV770的PCB布线可以一定程度上忽略信号同步的原理。对于RD人员来说,这个真是再好不过的消息,因为高频GDDR显存的绕线简直是一场噩梦。对PC DRAM稍微有常识的人都知道,DRAM要正常工作,其信号必须保证绝对同步到达,否则数据传输就失败。允许的误差必须是皮秒(picosecond,1皮秒等于一万亿分之一秒)级别的。 以前,这个特性在显卡上都由PCB布线来解决。我们必须在PCB上画出不同长度的信号线,让延迟/潜伏期对数据同步的影响降到最低,才能成功传输。不过在RV770上,这个特性已经变成由MC自己来完成,这意味着RV770的内存控制器具备了数据/时钟信号同步与自校准能力(Adaptive Timing)。这个特性很容易让人们想起早年rambus的FlexPhase技术,其衍生产品的授权已卖遍了全世界,用来解决各种高速互联总线的问题。INTEL某些服务器型号的北桥芯片就有用到RAMBUS的这种技术。不过这种技术在显卡上使用还是第一次,AMD很可能也从RAMBUS获得了授权,RV770的MC内部肯定有特别的pattern来实现这个火星技术。从另一个方面来说,这也意味着RV770的MC已经经过了优化校调或者说重新设计,性能表现将更上一层楼
目前我们没有得到RV770总线架构具体的细节和数据,因此无法和其前代产品做定量分析对比。不过可以确认的是,R7XX已经不再是R6XX那个头脑简单(R6XX的线程数和G8X相当,但是仲裁与控制部分依然较G8X简单原始),肌肉发达(单纯SP多)还患有小儿麻痹症(互联总线落后)的臃肿胖子了。而是一个从内到外,从最底层开始就坚韧无比的强大架构。如果说R6XX出色指标的只有表面皮肤,那么R7XX的优秀指标就是真正深入了骨髓。
R7XX在FLOPS、TMU、ROP fillrete方面近乎翻倍的规格,没有这个强大的互联架构在背后支撑,几乎是不可想象的。在我们津津乐道R7XX 优化TMU和tex cache改善纹理填充率、重制ROP带来强大的MSAA性能的同时,请不要忘记了是谁在背后给予它们力量。
从NV的角度看来,这是一个令人沮丧的时刻。NV多年来在MC、高速总线、GPU layout方面的优势因为ATI-AMD的合并瞬间消失殆尽,而工艺制程和对手相比又处于绝对劣势,GT200的资源更加倾向于CUDA方面似乎是合情合理的选择。
ATi在R400、C1、R520就开始的万亿次通用运算架构的构想,在R5XX难产,R6XX的失败之后,终于经AMD之手在R7XX时代绽放出绚丽的光芒。有了强大的骨架(高速互连技术)的支撑,R6XX SIMD架构极易扩充规模的优势可以得到淋漓尽致的发挥,再也不用担心在总体性能被蹩脚的总线设计拖住后腿。可以预见,将来AMD-IBM依靠工艺制程方面的优势,结合ATi在图形技术方面的丰富经验,加上DX11在通用计算方面的强力推动,A字头GPU的功能和性能必将得到前所未有的增长。
我们已经可以嗅到GT300、R8XX、Larrabee这三巨头决战前的火药味了
页:
[1]