运算能力并非绝对优势 Intel Xeon Phi解析
- +1 你赞过了
今年6月Intel发布了全新的Xeon Phi协处理器家族,并且逐步公开了Xeon Phi的详细资料。根据资料显示,Xeon Phi采用了高达50亿晶体管的超大规模集成电路,并且采用了3D晶体管以及22纳米等比较超前的技术。那么Xeon Phi究竟是一款怎样的产品?本文将通过一些细节来了解Xeon Phi的大致情况。
关于Xeon Phi的架构设计:
首先说一下Xeon Phi这种协处理器与传统处理器的区别。Xeon Phi是一款能够实现多线程运算的产品,目前我们在Nehalem、Sandy Bridge和Ivy Bridge处理器上都可以看到多线程技术,但是他们的多线程技术大多是用在富余的运算资源上面。Xeon Phi则与众不同,虽然是一款脱胎于X86处理器的产品,更严格的说其原型是Pentium处理器,不过与CPU相比,Xeon Phi在每个物理核心上集成了62个运算核心,并且具备了512bit SIMD单元,使它能够实现四线程并行处理,可以说是纯粹为了实现多线程而推出的。
不过Xeon Phi的四发射仅仅是理论状态,因为大多数情况下4线程会受到内存延迟的影响,而最佳状态是双线程并行处理。
另外Xeon Phi与X86处理器也有一个不同之处。在Xeon Phi里只有2%的逻辑运算器使用了X86指令,虽然两者有一定关联但是Xeon Phi的SIMD并不支持MMX、SSE或者AVX之类的,而使用了自己专有的指令集。
在Xeon Phi上有一种设计与Sandy Bridge-EP内核的Xeon E7处理器很相似,那就是内部结构。Xeon Phi在内核之间的连接上使用了双向环形结构,支持8通道内存,内存容量方面最大可以支持到8GB,并且整合了PCIE控制器。
Intel Xeon Phi实物解析:
Xeon Phi加速卡基于PCIE总线,从外观上看与GPU加速卡非常相似,不过与目前HPC中使用的GPU加速卡有一点不同的是它没有提供任何显示接口,因为Xeon Phi不具备显示功能而只提供计算。
另外Xeon Phi的工作模式也比较独特,它所运行的工作环境是由Linux修改而来的独立操作系统,自身则扮演一个多核心硬件平台的角色。每一个Xeon Phi加速卡都有独立的IP地址,但是Xeon Phi不能脱离主机独立运行。在服务器上,传统的Xeon仍然是绝对主角,是CPU,而Xeon Phi的角色仅仅相当于协处理器,这一点与GPU在服务器中扮演的角色是相同的。
以下是Intel将要推出的Xeon Phi产品型号:
在表格中可以看到有两款频率为1.1GHz的高规格产品,这两款产品Intel专门提供给德克萨斯超级计算机中心(TACC)的特别版,未来可能应用在 “Stampede”的超级计算机产品中,特别版不但频率有所提升,并且最大运算核心数量是61个。
相对于特别版而言,主流版本的5110P与前面的特别版相比频率少了50MHz并且运算核心数量也少了1个(运算核心数量为60个),但是同样支持了8GB ECC内存。带有P后缀表明这款产品可以依靠服务器内的通风系统进行被动散热。从价格上看5110P并不便宜,毕竟售价也达到了2699美元,但相对于竞争对手NVIDIA Tesla K20的3199美元来说还是非常实惠的。并且相对于Tesla K20这样的竞争对手,Xeon Phi 5100系列凭借5GHz GDDR5以及全速512bit内存接口,能够为特定的应用程序提供更高的内存带宽。
另外,Intel还将在2013年上半年推出Xeon Phi 3100系列以满足特殊应用需求,3100系列将采用6GB GDDR5并且只有384bit内存带宽,但是其主频更高,并且双精度浮点的运算能力将超过1TFLOP。
接口方面,Xeon Phi目前使用的是PCIE2.0接口,未来Intel会将其升级至PCIE3.0接口以避免发生性能瓶颈。
应用案例:DELL PowerEdge C8220X
第一个使用Xeon Phi的超级计算机将是Stampede,这款超级计算机被安置在德克萨斯超级计算机中心。Stampede是由6400台DELL PowerEdge C8220X以及对应的桥接器组成。C8220X采用的是双路8核心Xeon E5处理器,标配32G内存,并且带有GPU加速卡。而在部署方面,Stampede整体上使用的是DELL PowerEdge C8000共享解决方案,单个C8000为4U规格,内部可以放置8个PowerEdge C8220X,这样就能够组成高密度运算平台。
而在机柜部分,每个标准机柜能够容纳8个C8000,在Stampede上一共有200个标准机柜。这些设备使用了FDR无限连接技术,最终将全部的C8220X融合成为一台超级计算机。
运算性能方面,目前单纯使用Xeon E5处理器的情况下整体运算性能大约是2PFlops,如果将Xeon Phi部署进去,整体的运算性能将再增加8Pflots。整个Stampede上目前已经部署了272TB内存和14PB的存储空间,算上冷却系统在内的总功耗将达到6000千瓦。
另外在硬件平台上仍然有Tesla参与进来,因为Xeon Phi并不能单纯的替代GPU。举例来说,Xeon Phi没有纹理贴图单元,因此在远程可视化组件部分,还需要128个Tesla K20来解决。
写在最后:Xeon Phi亮点解析
做了一大堆关于Intel Xeon Phi架构、产品线、应用案例的介绍,那么这款产品的卖点就是是什么呢?相对于其他解决方案,使用Xeon Phi最大的优点在于你能够直接运行针对Xeon编写的多线程编码,如果使用Intel C或者fortan搭配Intel MKL运算库进行编译,还可以获得额外的性能提升。因此Intel声称在这种情况下许多“典型应用”借助Xeon Phi都能够获得2到2.5倍的性能提升。
在NVIDIA宣传GPU计算的时候曾经说比单纯的CPU运算快100倍,相对于NVIDIA来说Intel性能提升2到2.5倍的表述虽然不够让人振奋但很真实。因为在做GPU计算对比测试的时候测试的是全速运行的GPU与没有SIMD支持并且只做单线程计算的CPU相对比。
但是问题又来了,既然Xeon Phi带来的性能提升是也有限度的,那如果采用Xeon Phi,可能并不比堆积廉价四核搭建解决方案更有效率。早在Sandy Bridge EP核心的Xeon E5发布之前,AMD就通过廉价四核平台在全球的HPC市场获得了巨大成功。性能价格比与性能功耗比方面,AMD热衷于将自己的廉价四核与CPU+Phi方案做对比。
实际上与NVIDIA Tesla K20的CUDA加速运算相比,Xeon Phi的优点在于能够在程序调试的过程中为用户节省大量时间。专门为CUDA代码做debug非常麻烦,相对而言Intel成熟的汇编体系和高性能开发软件为Xeon Phi加分不少。对于新手来说从OpenMP架构转向CUDA架构非常低效,而在Xeon Phi平台上,OpenMP应用程序能够在不用重新编译的情况下高效运行。
总之,由于内核的通用性,因此Xeon Phi更具有弹性,更简单易用。而GPU加速计算在这方面捉襟见肘,因此通常GPU加速计算被用在一些注重并行运算能力的环境中,通过GPU增强并行处理能力。如果强调HPC的易用性,降低开发难度,毫无疑问Xeon Phi是最佳的解决方案。
最新资讯
热门视频
新品评测
+1 你赞过了