国产AI服务器的“变形金刚”曙光XMachine如何“炼成十八般武艺”
- +1 你赞过了
在11月21日苏州举办的英伟达GTC大会上,展区很有意思,大多数厂商仅仅摆了一个展台,空无产品,而中科曙光展台却有实体产品展示,吸引了很多人的目光。这就是它们全新的XMachine系列国产AI服务器。
XMachine系列AI服务器亮相英伟达GTC大会
据悉,中科曙光本次推出的全新XMachine系列AI服务器,主要包括X745-G30、X785-G30、X795-G30、X740-H30四款产品。基于Intel Skylake CPU,该系列AI服务器最多可支持8卡NVIDIA NVLink的GPU、10卡训练GPU、20卡推理加速卡。
它们采用统一硬件平台,完全兼容适配英伟达公司Tesla系列产品,满足当下主流应用的需求;采用CPU主板和GPU底板解耦合设计,可根据CPU和GPU的发展各自独立升级,降低用户更新换代成本。
据中科曙光智能计算技术总监许涛介绍,像X740的产品面向于推理,能支持四块T4(英伟达的云GPU)的卡,而X745、X785和X795的产品更多的是面向于训练,并兼顾推理的应用场景。同时,X745又和X785、X795不一样,X745支持四块GPU卡,一方面要照顾到AI服务器,另一方面还要考虑到高性能计算。
“在进行网络设计时,从CPU到GPU的带宽是全连通的,不会有任何阻塞,这可以满足高性能计算对带宽的需求。”许涛说。
更重要的是,XMachine系列AI服务器可做到一个硬件平台,两块不同主板(CPU、GPU),三种不同拓扑,可实现更多种类、更强适应性的AI服务器变化,被业内誉为国产AI服务器中的“变形金刚”。
18种机型 国产AI服务器中的“变形金刚”
为什么会被誉为国产AI服务器中的“变形金刚”?许涛解释:GPU服务器有很多规格,英伟达在其推荐里,像深度学习的场景可分为推理和训练,不同的应用场景对GPU服务器要求不一样。训练需要的是功耗高、计算力强的大型GPU卡,而推理需要像本次英伟达发布的T4的小卡,功耗低。
“在不同需求的驱动下,曙光的服务器能做到在同一个平台满足不同的应用、不同的需求。”许涛介绍。
其次,英伟达现在的GPU卡形态也有所变化,除了PCI-e接口,正大力普及NVLink。许涛表示,“在设计产品时,还需要考虑PCl-e接口和NVLink接口怎么配合。基于这两个层面,在设计服务器时,尽量在一个平台把这些需求考虑进去。”
同时,XMachine系列AI服务器,CPU和GPU板做了分离式设计,两个板可按照自己的演化速度向前推进。这种模块化组合的好处是,产品部件更换方便,灵活简单。
“现在的GPU服务器主板有不同的设计,GPU底板也有不同设计,主板到GPU板之间的连接也会有不同设计。从远期规划而言,至少要有两块不同的主板、三块不同的底板、三种不同的连接拓扑,这样算下来会有18种不同的机型。”许涛说,“这样一个产品从内部来看,就像变形金刚一样,可以通过不同的组合满足不同客户、不同业务的需求。”
虽然理论上有18种不同的搭配或组合,但是实际出货时,中科曙光会给用户建议,针对客户的需求,给出具体的有针对性的解决方案。
除了硬件推荐,“还有解决方案团队,我们希望给用户提供一个完整的解决方案。从他们的应用出发,推荐一个比较适合客户的硬件配置。”许涛补充说。
与传统服务器不同的AI服务器
据了解,XMachine的第一代产品要追溯到2016年。2016年,中科曙光就推出过一款产品,那是其最早的GPU服务器。
与传统服务器不同,现在的GPU服务器或人工智能服务器在设计时会遇到两个比较大的问题。第一是功耗很大,“像我们现在设计的服务器最高功耗会达到3200瓦,这仅是额定功率。如果是英伟达HGX的下一代产品,其参考功率是10千瓦。因此功耗对GPU或AI服务器是一个非常大的挑战。”许涛表示。
因为功耗很大,所以带来一个新问题:散热压力非常大。
第二个是成本昂贵。GPU服务器的单台造价非常高,GPU的成本贵,一台GPU服务器造价近百万。这样,服务器的稳定性需求就很高。
许涛强调说,“一个是供电和散热,一个是稳定性的考虑,这些都要在设计之初就考虑进入。”
那么,曙光全新的XMachine系列国产AI服务器是如何解决上述问题的?
对供电和散热问题,曙光AI服务器基于统一平台,整个GPU仓有3U的高度。这样,散热空间会非常地大。在许涛看来,一个机柜里能放下的GPU服务器非常有限,因为机柜的功耗不可能是无限大的。这种条件下,没有必要把GPU服务器的空间压缩到极致,为散热带来非常大的压力。
许涛说,“综合考虑后,发现4U的高度非常合理,一方面可以兼容客户对空间的需求;另一方面,也能更好地为GPU高功耗的加速器做散热,而且还为未来预留了很大的空间。”
当前,人工智能市场正在加速发展,并且随着时间推移,人们对它的期望越来越高。未来5年,人工智能还可以保持一个高速的发展,对GPU服务器或高算力服务器的需求非常强劲。
考虑到这种市场机会,曙光才适时推出全新的AI服务器。许涛表示,曙光希望在后续的市场增长中能积极响应市场需求,把市场需求转化成我们的产品,更好地配合市场,推动公司增长。
最新资讯
热门视频
新品评测