天河二号登TOP500：荣誉的背后还有各种伤？

先来说说大家都知道的：

2013年6月17日，由国防科技大学研制的“天河二号”超级计算机，以峰值计算速度每秒54902.4万亿次、持续计算速度每秒33862.7万亿次双精度浮点运算的优异成绩“干”掉了美国和日本的超算，获得世界超级计算机TOP500的榜首。值得“拍手”的是，天河二号的速度比第二名美国的泰坦快了一倍。

天河二号超算中心

一些数字

“天河二号”720平方米，造价1亿美元，占地运算一小时，相当于全国13亿人同时用计算器计算一千年。其系统的存储总容量相当于600亿册每册10万字的书籍。

在架构方面，天河二号使用了自主研发的网络系统和操作系统，网络系统使用了国防科大自主研发的，基于SPARC指令集的FT-1500处理器，操作系统则是我国自主开发的麒麟操作系统。天河二号大约有13000个计算节点，每个节点使用了两颗Intel Xeon E5-2692 V2 CPU和3个Xeon Phi 31sp Co-processor。Xeon E5-2692 V2是由英特尔开发并尚未上市，每颗CPU有12核心，主频2.2GHZ;而Xeon Phi 31sp则是Intel开发的协处理器，用来执行密集浮点运算。理论上，天河二号的最大浮点运算性能可达到54.9PFlops，而实测运算性能达33.86PFlops，效率达到60%左右。

仅仅是“速度快”吗？

研发一个超级计算机需要哪些技术呢？包括硬件层面的核心处理器、网络、存储架构、操作系统、编程平台、数据传输等核心技术，此外在能耗控制、制造工艺等方面也需要考量。所以，并不仅仅是“速度”上的突破。

自主研发的FT1500处理器

下面简单回顾一下超级计算机的历史：第一代超级计算机，在架构上和普通意义上的电脑没什么区别，也就是由“主控制器、存储器、运算器、输入和输出设备”组成，不同的是采用专门设计的CPU来提升运算速度，其瓶颈是单个CPU的速度上升之后，在降低能耗、解决散热等亟待解决的问题难度系数大大增加;后来，开始增加CPU数量，也就是多核，用以提高速度，但是在公共内存和维护缓存等方面又遇到了瓶颈，导致扩展能力有限，在核数变多之后，速度提升也变得有限了。于是，第三代超级计算机，也就是分布式多CPU架构(MPP)出现了：采用多个独立CPU执行一个任务，采用分布式存储系统，每个CPU和独立内存构成一个节点，避免了上一代计算机的瓶颈问题，但是成本控制问题又开始显现……天河二号所采用的新一代集群结构，也就是基于网络的分布式集中计算，属于第四代超级计算机架构。它的优势是把多个节点通过高速网络连接，进行统一调度并行处理，集群中的每个节点都有自己的存储器和I/O设备。

LSW交换机刀片

把16000个节点连起来的整齐的布线

可以说，研制一台超级计算机核心技术的体现是在架构设计上，通过优化的架构设计使得这些CPU的效率可以发挥出来，同时能耗控制在一个合理的水平。中国在天河一号率先研发使用了“CPU+GPU多态异构体系”，而天河二号得到了改良，实现了多类型计算资源、输入输出资源和服务资源等方面的灵活配置，并扩大了应用领域，可支持大数据处理。

本文导航

1.天河二号超级计算机荣登TOP500
2.天河二号荣誉背后的各种伤

阅读全文

天河二号登TOP500：荣誉的背后还有各种伤？

本文导航

热门标签