天极传媒:
天极网
比特网
IT专家网
52PK游戏网
极客修
全国分站

北京上海广州深港南京福建沈阳成都杭州西安长春重庆大庆合肥惠州青岛郑州泰州厦门淄博天津无锡哈尔滨

产品
  • 网页
  • 产品
  • 图片
  • 报价
  • 下载
全高清投影机 净化器 4K电视曲面电视小家电滚筒洗衣机
您现在的位置: 天极网 > 服务器>新闻>曙光XMachine如何炼成十八般武艺?

国产AI服务器的“变形金刚”曙光XMachine如何“炼成十八般武艺”

天极网服务器频道 2018. 11. 26 作者:骨傲天 责编:万佳
我要吐槽

责任编辑

  在11月21日苏州举办的英伟达GTC大会上,展区很有意思,大多数厂商仅仅摆了一个展台,空无产品,而中科曙光展台却有实体产品展示,吸引了很多人的目光。这就是它们全新的XMachine系列国产AI服务器

  XMachine系列AI服务器亮相英伟达GTC大会

  据悉,中科曙光本次推出的全新XMachine系列AI服务器,主要包括X745-G30、X785-G30、X795-G30、X740-H30四款产品。基于Intel Skylake CPU,该系列AI服务器最多可支持8卡NVIDIA NVLink的GPU、10卡训练GPU、20卡推理加速卡。

  它们采用统一硬件平台,完全兼容适配英伟达公司Tesla系列产品,满足当下主流应用的需求;采用CPU主板和GPU底板解耦合设计,可根据CPU和GPU的发展各自独立升级,降低用户更新换代成本。

国产AI服务器的“变形金刚” 曙光XMachine如何“炼成十八般武艺”?

  据中科曙光智能计算技术总监许涛介绍,像X740的产品面向于推理,能支持四块T4(英伟达的云GPU)的卡,而X745、X785和X795的产品更多的是面向于训练,并兼顾推理的应用场景。同时,X745又和X785、X795不一样,X745支持四块GPU卡,一方面要照顾到AI服务器,另一方面还要考虑到高性能计算。

  “在进行网络设计时,从CPU到GPU的带宽是全连通的,不会有任何阻塞,这可以满足高性能计算对带宽的需求。”许涛说。

  更重要的是,XMachine系列AI服务器可做到一个硬件平台,两块不同主板(CPU、GPU),三种不同拓扑,可实现更多种类、更强适应性的AI服务器变化,被业内誉为国产AI服务器中的“变形金刚”。

  18种机型 国产AI服务器中的“变形金刚”

  为什么会被誉为国产AI服务器中的“变形金刚”?许涛解释:GPU服务器有很多规格,英伟达在其推荐里,像深度学习的场景可分为推理和训练,不同的应用场景对GPU服务器要求不一样。训练需要的是功耗高、计算力强的大型GPU卡,而推理需要像本次英伟达发布的T4的小卡,功耗低。

  “在不同需求的驱动下,曙光的服务器能做到在同一个平台满足不同的应用、不同的需求。”许涛介绍。

  其次,英伟达现在的GPU卡形态也有所变化,除了PCI-e接口,正大力普及NVLink。许涛表示,“在设计产品时,还需要考虑PCl-e接口和NVLink接口怎么配合。基于这两个层面,在设计服务器时,尽量在一个平台把这些需求考虑进去。”

  同时,XMachine系列AI服务器,CPU和GPU板做了分离式设计,两个板可按照自己的演化速度向前推进。这种模块化组合的好处是,产品部件更换方便,灵活简单。

国产AI服务器的“变形金刚” 曙光XMachine如何“炼成十八般武艺”?

  “现在的GPU服务器主板有不同的设计,GPU底板也有不同设计,主板到GPU板之间的连接也会有不同设计。从远期规划而言,至少要有两块不同的主板、三块不同的底板、三种不同的连接拓扑,这样算下来会有18种不同的机型。”许涛说,“这样一个产品从内部来看,就像变形金刚一样,可以通过不同的组合满足不同客户、不同业务的需求。”

  虽然理论上有18种不同的搭配或组合,但是实际出货时,中科曙光会给用户建议,针对客户的需求,给出具体的有针对性的解决方案。

  除了硬件推荐,“还有解决方案团队,我们希望给用户提供一个完整的解决方案。从他们的应用出发,推荐一个比较适合客户的硬件配置。”许涛补充说。

  与传统服务器不同的AI服务器

  据了解,XMachine的第一代产品要追溯到2016年。2016年,中科曙光就推出过一款产品,那是其最早的GPU服务器。

  与传统服务器不同,现在的GPU服务器或人工智能服务器在设计时会遇到两个比较大的问题。第一是功耗很大,“像我们现在设计的服务器最高功耗会达到3200瓦,这仅是额定功率。如果是英伟达HGX的下一代产品,其参考功率是10千瓦。因此功耗对GPU或AI服务器是一个非常大的挑战。”许涛表示。

  因为功耗很大,所以带来一个新问题:散热压力非常大。

  第二个是成本昂贵。GPU服务器的单台造价非常高,GPU的成本贵,一台GPU服务器造价近百万。这样,服务器的稳定性需求就很高。

  许涛强调说,“一个是供电和散热,一个是稳定性的考虑,这些都要在设计之初就考虑进入。”

  那么,曙光全新的XMachine系列国产AI服务器是如何解决上述问题的?

  对供电和散热问题,曙光AI服务器基于统一平台,整个GPU仓有3U的高度。这样,散热空间会非常地大。在许涛看来,一个机柜里能放下的GPU服务器非常有限,因为机柜的功耗不可能是无限大的。这种条件下,没有必要把GPU服务器的空间压缩到极致,为散热带来非常大的压力。

  许涛说,“综合考虑后,发现4U的高度非常合理,一方面可以兼容客户对空间的需求;另一方面,也能更好地为GPU高功耗的加速器做散热,而且还为未来预留了很大的空间。”

  当前,人工智能市场正在加速发展,并且随着时间推移,人们对它的期望越来越高。未来5年,人工智能还可以保持一个高速的发展,对GPU服务器或高算力服务器的需求非常强劲。

  考虑到这种市场机会,曙光才适时推出全新的AI服务器。许涛表示,曙光希望在后续的市场增长中能积极响应市场需求,把市场需求转化成我们的产品,更好地配合市场,推动公司增长。

作者:骨傲天责任编辑:万佳)
请关注天极网天极新媒体 最酷科技资讯
扫码赢大奖
评论
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!
办公软件IT新闻整机