科学家的IT强国梦 天河二号副总设计师专访
- +1 你赞过了
采访对象:
卢凯 国防科技大学计算机学院教授、博士生导师、天河高性能计算机系统副总设计师
朱小谦 国防科技大学计算机学院研究员、天河高性能计算机系统副总设计师
凌琦 英特尔(中国)有限公司行业合作与解决方案部中国区总监
乔楠 英特尔公司软件与服务集团客户响应团队经理
前言
今年6月,超级计算机领域发生了一件大事。在6月17日更新的全球TOP500超级计算机性能排名中,国防科技大学的天河二号在性能测试中位居世界第一。天河二号也是一台颇具神秘感的超级计算机,一直甚少在媒体上露面,甚至是在荣登榜首之后也保持着一贯低调的风格。不过低调是无法应对专业人士们“猎奇”的,尤其是天河二号是率先采用了Intel至强融核协处理器方案的超级计算机,刚一面试就一举击败了多个异构计算解决方案。天河二号究竟是一个怎样的产品?将在哪个领域发挥作用?
与天河二号在媒体上的低调相似,天河二号的研发团队也极少在媒体上露面。在一些赞扬声见诸报端之后,个别非专业媒体对于超级计算机的质疑也从未停止过,却迟迟未见相关人士辟谣。与各种炒作相比,这个颇具“神秘感”的团队更注重的是脚踏实地的做好每一件事情。
天河高性能计算机系统副总设计师、国防科技大学计算机学院研究员 朱小谦
如今在一次偶然的机会,我们有幸采访到了两位负责天河二号研发的关键人物,分别是国防科技大学计算机学院教授、博士生导师、天河高性能计算机系统副总设计师卢凯教授,以及国防科技大学计算机学院研究员、天河高性能计算机系统副总设计师朱小谦先生。这是天河二号核心研发人员首次在媒体面前亮相,通过两位副总设计师的介绍,天河二号更多的细节,以及关于中国超级计算机的许多疑惑,终于得以迎刃而解。
与生活近在咫尺的超算
超级计算机是一个听起来与我们生活非常遥远的设备,然而其实超级计算机与生活的方方面面都息息相关。举个例子,很多朋友最喜欢的零食之一是薯片,在各个超市和便利店都有很多品牌很多口味的薯片出售。然而薯片是一种很易碎的零食,食品制造商是如何研究出能让薯片不受挤压的包装呢?这就是超算为我们生活所做的贡献之一。在我们生活中,超级计算机在方方面面都作者贡献,然而我们却从来没有感觉到他们存在过。
超级计算机,顾名思义,计算能力要很强。因此超级计算机普遍用于科研领域,比如蛋白质折叠、宇宙演进的模拟等等。这些方面对于作为当前TOP500冠军的天河二号来说自然不在话下。不过天河二号的实际应用场景并不是这么单一,与传统超算相比,天河二号是一个超算中的多面手,在体系结构和技术方案设计上,设计师们为天河二号做了很多定制化设计,因此在高性能计算之外,它还兼顾了信息处理、数据分析等当前热门应用领域的需求。
前面讲到天河二号是一个超算中的“多面手”,那么这个全球排名第一的超算将在哪些领域发挥作用?据介绍,目前天河二号被安置在国防科技大学,目前广州超算中心正在加紧建设中,预计年底天河二号将落户广州,为广州市的电子政务以及整个南方的信息化建设提供服务。并且还会面向科学计算、应用计算等多个领域为用户提供服务器,在能源、基因、气候等领域做出贡献。
微异构优势与生俱来
天河二号的应用领域非常广泛,正是得益于天河二号先进的架构设计以及Intel独特的“微异构”方案。全新的结构设计改变了面向高性能计算特点的结构,转而采用了异构多态的方案,这样不仅仅满足以计算为核心的传统应用需求,对于以IO为核心、以中小尺寸IO处理为核心的很多应用领域也提供了很好支持,而在存储方案设计上,此前已经有了天河一号的成功经验积累,同时研发团队借鉴了许多国内外的成功理念,使天河二号的存储系统对于科学计算和大数据信息处理都有兼顾。在此基础上,国防科技大学的研发团队提供优秀的软硬件平台,便于合作伙伴和用户充分挖掘天河二号的潜能。
对于超算的架构,我们在此前的文章《超级计算机榜单或面临洗牌 TOP500新规解析》中已经对于当前热门的异构计算提出了质疑。作为副总设计师的卢凯教授表示,天河二号采用的并非传统的CPU+GPU异构,而是采用了全新的Intel Xeon处理器搭配Intel Xeon Phi协处理器组成的独特“微异构”架构,与传统的异构相比,这种微异构方案由于CPU和Xeon Phi之间结构非常相似,无论是处理器微架构还是指令集都有很多共通之处,因此并行运算的效率更高、为科研人员提供的开发环境更加友好,对第三方应用的兼容性也更好,这都是传统异构架构所不具备的独特优势。
在具备更高运算性能、更优秀体系架构的同时,天河二号上也大量融入了自主研发的元素。比如在超级计算机的事务处理、信息服务方面,天河二号采用的是我国自主研发的飞腾微处理器,并且研发人员全面合作,根据天河二号的规模和应用需求,在软硬件方面联合优化,使得天河二号能够满足未来更大规模系统构建需求。比如在系统管理方面,借助飞腾处理器优秀的硬件平台,让天河二号实现了智能化管理,即所谓“机器管理机器”,整套管理系统能够及时发现故障,并进行对应的诊断处理,大大降低了维护超级计算机的工作强度。再比如在易用性方面,研发团队提供的并行编程模型OpenMC具备了无可比拟的优势。OpenMC能够适应多种加速器,在未来如果应用软件的工作环境发生改变,比如需要运行在其他加速器上,或者遇到Intel对产品进行升级加速器规格发生变化,也可以在尽量不改变代码的情况下获得最大性能。
辛勤耕耘二十年
说起天河二号的成就,两位副总设计师都坦言不是一件容易的事情。天河二号整个部署的节奏非常紧张,从4月开始部署,到6月提交Linpack运算成绩,短短两个月时间就安装调试完毕并做好优化,并取得世界第一,在超算领域怎么看都算得上是一个奇迹。卢凯教授并不这样认为。他坦言在部署上能够快速完成得益于Intel架构的特色,“微异构”优化难度相对较低,过程可控。看来这种全新架构不但能为用户带来方便,也为硬件研发团队带来了很大的方便。
另一方面,天河二号能够达到今天的高度,也不是一蹴而就的。卢凯教授说到,天河二号之前有天河一号以及众多性能优异的其他国产超级计算机,这些超级计算机的出现,为中国超级计算机的发展积累了很多经验。天河二号正是凭借这些前人积累下来的经验,才能走到TOP500第一名的位置。另外,在4月以前,整个研发团队也为天河二号做了相当多的前期准备工作,所以才能在项目实施过程中有这样快的速度。因此不管从哪个角度,天河二号仅仅用了两个月就取得世界第一这种说法都是不对的。
同样,中国未来还会有更多、性能更好的超级计算机出现,天河二号也为未来超级计算机的发展积累了更多经验。随着超级计算机规模不断扩大、性能不断提升,不同阶段所要解决的技术问题和性能瓶颈是不一样的。比如对于5000个节点的超级计算机,我们可能考虑的是如何实现运算能力的最大化,而未来超级计算机有10000个节点的时候,我们可能就要投入更多的研发力量解决制冷问题、能耗问题以及系统扩展性问题。就算是在当前情况下也有很多难点要攻克,比如如何让超级计算机变得更可靠?系统规模和可靠性成反比,超级计算机的规模越来越大,意味着可靠性在不断降低,如何及时发现故障、排除故障,如何让应用程序容忍一定程度的故障,都是让全世界科学家困扰的问题。
国防科技大学拥有稳定的体系和团队,国防科技大学有一批类似经验丰富科研人员,从上实际80年代就开始在高性能计算领域耕耘,如今已经有二三十年的积累,这个时间段正赶上中国超级计算机高速发展的时期,因此对于天河二号研发团队来说,很多可能出现的性能瓶颈都是可预知的、可控制的,这也是天河二号有如此成绩的重要原因之一。
面对质疑诸多无奈
在获取巨大成就的同时,卢凯教授对于当今非专业领域一些媒体的论调也表现出了一丝无奈。
超级计算机不仅仅服务于尖端领域,还在各行各业发挥作用,默默地改变着我们的生活,然而很多人并不知道超级计算机存在的意义。比如本文开头就以一包小小的薯片举例,如今我们身边很多产品的研发都是依赖超级计算机完成的。再比如怎样设计出安全性更好的汽车,如果不用超级计算机模拟,那么就只能依靠一次次的制造成品、实验、改良,浪费大量人力物力,很多产品的研发成本会因此被推高数倍乃至数十倍,这些最终都要由消费者买单。
如今人们在享受超级计算机成果的同时,有些人却认为超级计算机百无一用、只是面子工程、形象工程,甚至引发一些非专业媒体炮轰研发超算是在浪费人力财力。这种现象不光在中国存在,日本在超级计算机“京”(K Computer)的研发过程中也遇到了同样的问题。因为大众对于超级计算机的不了解,研发超级计算机被日本民众和国会认为是毫无意义的事情,导致“京”的研发一度由于缺乏资金而停顿,甚至有取消的危险。但最终日本在权衡利弊之后,坚持完成了超级计算机的研发。
对于中国来说,最幸运的就是虽然有质疑的声音在,但没有严重到真的影响超级计算机的研发。而且像天河二号这样的超级计算机,不但具备比“京”更优异的性能(峰值运算能力五倍于京),还具备了更好的开发环境和更广泛的用途。
自主研发迎头赶上
除了超级计算机的价值之外,对于“自主研发”的错误解读也是负面声音最集中的焦点。提起超级计算机,一直有一种观点就是“超级计算机无非就是烧钱堆硬件”。但我们现在的事实情况是纵览整个TOP500榜单,发达国家里也并非每个国家都有能力“堆硬件”,真正在超算领域引人注目的只有美国、中国和日本等,而且即使是美国这样的国家,也只有少数公司有能力设计超级计算机。
自主知识产权的银河飞腾FT-1500处理器在天河二号上发挥重要作用
反观中国的超级计算机,不但在技术上实现了与美国同步,并且多次在性能上超越了美国的同类产品。在技术上中国的超级计算机也率先引进了异构,如今又是同样率先引进了由Intel Xeon Phi实现的“微异构”。而在自主研发方面,中国也在一步步的向前追赶,天河二号就将国产的飞腾处理器引入超级计算机领域,并且自主研发了兼容性更好的OpenMC编程模型。类似的许多自主研发要素都被应用到超级计算机上,并且发挥着重要作用。卢凯教授这样说到。“面对‘堆硬件’的质疑,我们能做的只有一笑了之”。
正是因为有卢凯教授这样的科研人员辛勤耕耘,我国的超级计算机才能在今天取得世界第一的成绩。超级计算机在我们生活的方方面面发挥着重要作用,凝聚着无数科研人员的心血。在天河二号受到全世界关注的时候,甚至没有太多的人知道他们的姓名。与个人荣耀相比,他们更希望的是大众了解到他们的努力是有价值的,更希望大众知道超级计算机对中国的经济建设是有重要意义的,这是无数科研人员继续努力的原动力。
最新资讯
热门视频
新品评测
+1 你赞过了