国产AI服务器的“变形金刚”曙光XMachine如何“炼成十八般武艺”

在11月21日苏州举办的英伟达GTC大会上，展区很有意思，大多数厂商仅仅摆了一个展台，空无产品，而中科曙光展台却有实体产品展示，吸引了很多人的目光。这就是它们全新的XMachine系列国产AI服务器。

XMachine系列AI服务器亮相英伟达GTC大会

据悉，中科曙光本次推出的全新XMachine系列AI服务器，主要包括X745-G30、X785-G30、X795-G30、X740-H30四款产品。基于Intel Skylake CPU，该系列AI服务器最多可支持8卡NVIDIA NVLink的GPU、10卡训练GPU、20卡推理加速卡。

它们采用统一硬件平台，完全兼容适配英伟达公司Tesla系列产品，满足当下主流应用的需求;采用CPU主板和GPU底板解耦合设计，可根据CPU和GPU的发展各自独立升级，降低用户更新换代成本。

据中科曙光智能计算技术总监许涛介绍，像X740的产品面向于推理，能支持四块T4(英伟达的云GPU)的卡，而X745、X785和X795的产品更多的是面向于训练，并兼顾推理的应用场景。同时，X745又和X785、X795不一样，X745支持四块GPU卡，一方面要照顾到AI服务器，另一方面还要考虑到高性能计算。

“在进行网络设计时，从CPU到GPU的带宽是全连通的，不会有任何阻塞，这可以满足高性能计算对带宽的需求。”许涛说。

更重要的是，XMachine系列AI服务器可做到一个硬件平台，两块不同主板(CPU、GPU)，三种不同拓扑，可实现更多种类、更强适应性的AI服务器变化，被业内誉为国产AI服务器中的“变形金刚”。

18种机型国产AI服务器中的“变形金刚”

为什么会被誉为国产AI服务器中的“变形金刚”？许涛解释：GPU服务器有很多规格，英伟达在其推荐里，像深度学习的场景可分为推理和训练，不同的应用场景对GPU服务器要求不一样。训练需要的是功耗高、计算力强的大型GPU卡，而推理需要像本次英伟达发布的T4的小卡，功耗低。

“在不同需求的驱动下，曙光的服务器能做到在同一个平台满足不同的应用、不同的需求。”许涛介绍。

其次，英伟达现在的GPU卡形态也有所变化，除了PCI-e接口，正大力普及NVLink。许涛表示，“在设计产品时，还需要考虑PCl-e接口和NVLink接口怎么配合。基于这两个层面，在设计服务器时，尽量在一个平台把这些需求考虑进去。”

同时，XMachine系列AI服务器，CPU和GPU板做了分离式设计，两个板可按照自己的演化速度向前推进。这种模块化组合的好处是，产品部件更换方便，灵活简单。

“现在的GPU服务器主板有不同的设计，GPU底板也有不同设计，主板到GPU板之间的连接也会有不同设计。从远期规划而言，至少要有两块不同的主板、三块不同的底板、三种不同的连接拓扑，这样算下来会有18种不同的机型。”许涛说，“这样一个产品从内部来看，就像变形金刚一样，可以通过不同的组合满足不同客户、不同业务的需求。”

虽然理论上有18种不同的搭配或组合，但是实际出货时，中科曙光会给用户建议，针对客户的需求，给出具体的有针对性的解决方案。

除了硬件推荐，“还有解决方案团队，我们希望给用户提供一个完整的解决方案。从他们的应用出发，推荐一个比较适合客户的硬件配置。”许涛补充说。

与传统服务器不同的AI服务器

据了解，XMachine的第一代产品要追溯到2016年。2016年，中科曙光就推出过一款产品，那是其最早的GPU服务器。

与传统服务器不同，现在的GPU服务器或人工智能服务器在设计时会遇到两个比较大的问题。第一是功耗很大，“像我们现在设计的服务器最高功耗会达到3200瓦，这仅是额定功率。如果是英伟达HGX的下一代产品，其参考功率是10千瓦。因此功耗对GPU或AI服务器是一个非常大的挑战。”许涛表示。

因为功耗很大，所以带来一个新问题：散热压力非常大。

第二个是成本昂贵。GPU服务器的单台造价非常高，GPU的成本贵，一台GPU服务器造价近百万。这样，服务器的稳定性需求就很高。

许涛强调说，“一个是供电和散热，一个是稳定性的考虑，这些都要在设计之初就考虑进入。”

那么，曙光全新的XMachine系列国产AI服务器是如何解决上述问题的？

对供电和散热问题，曙光AI服务器基于统一平台，整个GPU仓有3U的高度。这样，散热空间会非常地大。在许涛看来，一个机柜里能放下的GPU服务器非常有限，因为机柜的功耗不可能是无限大的。这种条件下，没有必要把GPU服务器的空间压缩到极致，为散热带来非常大的压力。

许涛说，“综合考虑后，发现4U的高度非常合理，一方面可以兼容客户对空间的需求;另一方面，也能更好地为GPU高功耗的加速器做散热，而且还为未来预留了很大的空间。”

当前，人工智能市场正在加速发展，并且随着时间推移，人们对它的期望越来越高。未来5年，人工智能还可以保持一个高速的发展，对GPU服务器或高算力服务器的需求非常强劲。