超级计算机榜单或面临洗牌 TOP500新规解析
- +1 你赞过了
异构计算难以驾驭催生标准变革
硬件是可以用经费堆砌的,但软件、算法、规则等等无法在短时间内进行革新。超算领域软硬件发展极不平衡,现在的实际情况是信息熵方面的研究远远滞后于硬件的发展,并行计算以及异构计算的信息熵在不断升高,导致超级计算机硬件性能根本无法充分发挥,甚至完全无法使用。这一点在TOP500的测试上已经有所体现了,Linpack标准的创始人也在关注超算理论性能与实际脱节的问题。田纳西大学诺克斯维尔分校教授Jack Dongarra是当前超算TOP500新标准的发起者,并且也是Linpack标准的创始人,他在采访中也对现阶段Linpack的客观性提出了质疑,并以此前的超算冠军TITAN举例子。
TITAN拥有18688个节点,每个节点有1个16核心Opteron处理器、32GB内存和一个NVIDIA TESLA K20运算加速卡。TITAN登榜的成绩是按照HPL标准用Linpack测试得出的。在Linpack测试中,Opteron处理器仅发挥了部分效能,所有的浮点计算都是依靠TESLA K20完成的。但在实际的使用中,像Linpack这样使用超算运算资源的案例极少,绝大多数情况下应用程序根本无法使用TESLA K20,只使用CPU的运算资源,并且为了减少出错概率以及为不适合异构计算的应用软件加速,还会选择性的将TESLA K20强行关闭。
显然,在当今异构计算大行其道的时代,Linpack一成不变的测试方法虽然能够反映出超级计算机的最大运算性能,但是与实际使用情况已经有了非常大的差距。至于不用异构计算做加速的原因,主要是受制于开发难度。“运行程序的时候10小时和15小时没啥区别,都是睡一觉就出来结果,但是为了缩短的几个小时,前期写代码要增加几倍的工作量,还要预防一些不可预测的错误,实在是得不偿失”——一位做开发的朋友如此总结。
因此在这样的情况下,既然相应的软件开发环境短时间内难以转变,那么包括超级计算机在内的所有异构体系,其实际性能表现如何就必须重新审视,甚至需要重新制定一套更科学、更能体现实际性能水平的衡量标准来进行性能评估。这样一方面可以防止新超算借助还并不实用的异构体系刷榜,另一方面也便于用户选择适合的设备——在新规范下使用HPL和HPCG两种标准测试出两套成绩,如果偏重于异构计算可以多参考HPL成绩,如果寻求稳妥可以多参考HPCG成绩。
不管怎么样,这都意味着TOP500的下次榜单更新极为重要,甚至可能会影响到很多超级计算机的排名。异构计算让超级计算机的性能在短时间内突飞猛进,然而短短几年之后我们就发现,异构计算造出来的是一只只难以驯服的高性能怪兽,在有能力充分挖掘其潜力之前,我们必须改变现有的标准,以更科学的方法衡量这些怪兽目前能发挥出的能量有多少。
本文推荐相关阅读:
最新资讯
新品评测