科学家的IT强国梦 天河二号副总设计师专访
- +1 你赞过了
辛勤耕耘二十年
说起天河二号的成就,两位副总设计师都坦言不是一件容易的事情。天河二号整个部署的节奏非常紧张,从4月开始部署,到6月提交Linpack运算成绩,短短两个月时间就安装调试完毕并做好优化,并取得世界第一,在超算领域怎么看都算得上是一个奇迹。卢凯教授并不这样认为。他坦言在部署上能够快速完成得益于Intel架构的特色,“微异构”优化难度相对较低,过程可控。看来这种全新架构不但能为用户带来方便,也为硬件研发团队带来了很大的方便。
另一方面,天河二号能够达到今天的高度,也不是一蹴而就的。卢凯教授说到,天河二号之前有天河一号以及众多性能优异的其他国产超级计算机,这些超级计算机的出现,为中国超级计算机的发展积累了很多经验。天河二号正是凭借这些前人积累下来的经验,才能走到TOP500第一名的位置。另外,在4月以前,整个研发团队也为天河二号做了相当多的前期准备工作,所以才能在项目实施过程中有这样快的速度。因此不管从哪个角度,天河二号仅仅用了两个月就取得世界第一这种说法都是不对的。
同样,中国未来还会有更多、性能更好的超级计算机出现,天河二号也为未来超级计算机的发展积累了更多经验。随着超级计算机规模不断扩大、性能不断提升,不同阶段所要解决的技术问题和性能瓶颈是不一样的。比如对于5000个节点的超级计算机,我们可能考虑的是如何实现运算能力的最大化,而未来超级计算机有10000个节点的时候,我们可能就要投入更多的研发力量解决制冷问题、能耗问题以及系统扩展性问题。就算是在当前情况下也有很多难点要攻克,比如如何让超级计算机变得更可靠?系统规模和可靠性成反比,超级计算机的规模越来越大,意味着可靠性在不断降低,如何及时发现故障、排除故障,如何让应用程序容忍一定程度的故障,都是让全世界科学家困扰的问题。
国防科技大学拥有稳定的体系和团队,国防科技大学有一批类似经验丰富科研人员,从上实际80年代就开始在高性能计算领域耕耘,如今已经有二三十年的积累,这个时间段正赶上中国超级计算机高速发展的时期,因此对于天河二号研发团队来说,很多可能出现的性能瓶颈都是可预知的、可控制的,这也是天河二号有如此成绩的重要原因之一。
最新资讯
热门视频
新品评测