运算能力并非绝对优势 Intel Xeon Phi解析

返回分页阅读

今年6月Intel发布了全新的Xeon Phi协处理器家族，并且逐步公开了Xeon Phi的详细资料。根据资料显示，Xeon Phi采用了高达50亿晶体管的超大规模集成电路，并且采用了3D晶体管以及22纳米等比较超前的技术。那么Xeon Phi究竟是一款怎样的产品？本文将通过一些细节来了解Xeon Phi的大致情况。

关于Xeon Phi的架构设计：

首先说一下Xeon Phi这种协处理器与传统处理器的区别。Xeon Phi是一款能够实现多线程运算的产品，目前我们在Nehalem、Sandy Bridge和Ivy Bridge处理器上都可以看到多线程技术，但是他们的多线程技术大多是用在富余的运算资源上面。Xeon Phi则与众不同，虽然是一款脱胎于X86处理器的产品，更严格的说其原型是Pentium处理器，不过与CPU相比，Xeon Phi在每个物理核心上集成了62个运算核心，并且具备了512bit SIMD单元，使它能够实现四线程并行处理，可以说是纯粹为了实现多线程而推出的。

不过Xeon Phi的四发射仅仅是理论状态，因为大多数情况下4线程会受到内存延迟的影响，而最佳状态是双线程并行处理。

另外Xeon Phi与X86处理器也有一个不同之处。在Xeon Phi里只有2%的逻辑运算器使用了X86指令，虽然两者有一定关联但是Xeon Phi的SIMD并不支持MMX、SSE或者AVX之类的，而使用了自己专有的指令集。

在Xeon Phi上有一种设计与Sandy Bridge-EP内核的Xeon E7处理器很相似，那就是内部结构。Xeon Phi在内核之间的连接上使用了双向环形结构，支持8通道内存，内存容量方面最大可以支持到8GB，并且整合了PCIE控制器。

Intel Xeon Phi实物解析：

Xeon Phi加速卡基于PCIE总线，从外观上看与GPU加速卡非常相似，不过与目前HPC中使用的GPU加速卡有一点不同的是它没有提供任何显示接口，因为Xeon Phi不具备显示功能而只提供计算。

另外Xeon Phi的工作模式也比较独特，它所运行的工作环境是由Linux修改而来的独立操作系统，自身则扮演一个多核心硬件平台的角色。每一个Xeon Phi加速卡都有独立的IP地址，但是Xeon Phi不能脱离主机独立运行。在服务器上，传统的Xeon仍然是绝对主角，是CPU，而Xeon Phi的角色仅仅相当于协处理器，这一点与GPU在服务器中扮演的角色是相同的。

以下是Intel将要推出的Xeon Phi产品型号：

在表格中可以看到有两款频率为1.1GHz的高规格产品，这两款产品Intel专门提供给德克萨斯超级计算机中心(TACC)的特别版，未来可能应用在 “Stampede”的超级计算机产品中，特别版不但频率有所提升，并且最大运算核心数量是61个。

相对于特别版而言，主流版本的5110P与前面的特别版相比频率少了50MHz并且运算核心数量也少了1个(运算核心数量为60个)，但是同样支持了8GB ECC内存。带有P后缀表明这款产品可以依靠服务器内的通风系统进行被动散热。从价格上看5110P并不便宜，毕竟售价也达到了2699美元，但相对于竞争对手NVIDIA Tesla K20的3199美元来说还是非常实惠的。并且相对于Tesla K20这样的竞争对手，Xeon Phi 5100系列凭借5GHz GDDR5以及全速512bit内存接口，能够为特定的应用程序提供更高的内存带宽。

另外，Intel还将在2013年上半年推出Xeon Phi 3100系列以满足特殊应用需求，3100系列将采用6GB GDDR5并且只有384bit内存带宽，但是其主频更高，并且双精度浮点的运算能力将超过1TFLOP。

接口方面，Xeon Phi目前使用的是PCIE2.0接口，未来Intel会将其升级至PCIE3.0接口以避免发生性能瓶颈。

应用案例：DELL PowerEdge C8220X

第一个使用Xeon Phi的超级计算机将是Stampede，这款超级计算机被安置在德克萨斯超级计算机中心。Stampede是由6400台DELL PowerEdge C8220X以及对应的桥接器组成。C8220X采用的是双路8核心Xeon E5处理器，标配32G内存，并且带有GPU加速卡。而在部署方面，Stampede整体上使用的是DELL PowerEdge C8000共享解决方案，单个C8000为4U规格，内部可以放置8个PowerEdge C8220X，这样就能够组成高密度运算平台。

而在机柜部分，每个标准机柜能够容纳8个C8000，在Stampede上一共有200个标准机柜。这些设备使用了FDR无限连接技术，最终将全部的C8220X融合成为一台超级计算机。

运算性能方面，目前单纯使用Xeon E5处理器的情况下整体运算性能大约是2PFlops，如果将Xeon Phi部署进去，整体的运算性能将再增加8Pflots。整个Stampede上目前已经部署了272TB内存和14PB的存储空间，算上冷却系统在内的总功耗将达到6000千瓦。

另外在硬件平台上仍然有Tesla参与进来，因为Xeon Phi并不能单纯的替代GPU。举例来说，Xeon Phi没有纹理贴图单元，因此在远程可视化组件部分，还需要128个Tesla K20来解决。

写在最后：Xeon Phi亮点解析

做了一大堆关于Intel Xeon Phi架构、产品线、应用案例的介绍，那么这款产品的卖点就是是什么呢？相对于其他解决方案，使用Xeon Phi最大的优点在于你能够直接运行针对Xeon编写的多线程编码，如果使用Intel C或者fortan搭配Intel MKL运算库进行编译，还可以获得额外的性能提升。因此Intel声称在这种情况下许多“典型应用”借助Xeon Phi都能够获得2到2.5倍的性能提升。

在NVIDIA宣传GPU计算的时候曾经说比单纯的CPU运算快100倍，相对于NVIDIA来说Intel性能提升2到2.5倍的表述虽然不够让人振奋但很真实。因为在做GPU计算对比测试的时候测试的是全速运行的GPU与没有SIMD支持并且只做单线程计算的CPU相对比。

但是问题又来了，既然Xeon Phi带来的性能提升是也有限度的，那如果采用Xeon Phi，可能并不比堆积廉价四核搭建解决方案更有效率。早在Sandy Bridge EP核心的Xeon E5发布之前，AMD就通过廉价四核平台在全球的HPC市场获得了巨大成功。性能价格比与性能功耗比方面，AMD热衷于将自己的廉价四核与CPU+Phi方案做对比。

实际上与NVIDIA Tesla K20的CUDA加速运算相比，Xeon Phi的优点在于能够在程序调试的过程中为用户节省大量时间。专门为CUDA代码做debug非常麻烦，相对而言Intel成熟的汇编体系和高性能开发软件为Xeon Phi加分不少。对于新手来说从OpenMP架构转向CUDA架构非常低效，而在Xeon Phi平台上，OpenMP应用程序能够在不用重新编译的情况下高效运行。

总之，由于内核的通用性，因此Xeon Phi更具有弹性，更简单易用。而GPU加速计算在这方面捉襟见肘，因此通常GPU加速计算被用在一些注重并行运算能力的环境中，通过GPU增强并行处理能力。如果强调HPC的易用性，降低开发难度，毫无疑问Xeon Phi是最佳的解决方案。