ARM价值几何 Calxeda服务器评测报告:下篇
- +1 你赞过了
昨天的《ARM价值几何 Calxeda服务器评测报告:中篇》评测是针对理论数据、处理器性能以及应用环境的探讨,接下来我们看一下在真实环境中的性能,并且对整个评测数据进行一下总结。
真实环境测试
我们构建了两套系统,至强系统带有两对不同的至强CPU、128GB内存和ESXi 5.1。我们在至强服务器上创建了24台虚拟机,在每一个虚拟机中我们设置了一个带有四个虚拟CPU和4GB RAM的phpBB(Apache2, MySQL)网站,每个网站使用了大约8GB的硬盘空间。我们模拟了高达75个并发用户,他们每隔0.6 – 2.4秒发出新的请求。
Boston Viridis服务器被加以了相同的工作负载,但是替代使用虚拟机的是:我们使用了24个物理的服务器节点。
自从在2010年后期被重新设计之后,我们的vApus stresstesting framework 非常适合于用大量并行的工作负载来点击(无论是否是虚拟化的)集群。一台四核7400服务器能够产生24个测试用户,该服务器被连接到我们的Dell PowerConnect 8024F (10Gbit以太网)上,后者被连接到被测试的服务器上。
vApus hitting 24 web servers in parallel
vApus可同时点击24个网络服务器
使用这种方法,我们能够对一种网站托管环境进行仿真,其间的数十个网站每秒被数千个访问者点击。这听起来可能不令人印象深刻,但是这些每秒数千个请求给一个网站环境每天带来了一亿次点击。
因为我们确保了我们的网站服务器能够提供一些高质量的图片(png),因此所发生的网络流量是巨大的。我们测试到的峰值达到了8Gbit/s,同时典型的网络流量是大约4 – 6Gbit/s。
结果非常重要
在你跳到下面的图表之前,我们建议花一些时间来恰当地翻译一下结果。首先,我们在网站服务器模拟了每秒5到10位“繁忙”的用户。当一位用户点击网站上的某个地方时,这将产生一些请求或者数十个请求。例如,连接网站上的论坛将产生两个简单的“GET”请求,同时发布一条回复将产生一次雪崩般的56次POST和GET,这就是我们为什么以“每秒的响应数”来报告性能的原因。如果你用统计上足够大的数量来分析它们,从CPU负载点的角度来看,响应从某种程度上是与之相似的。用户行为是如此的不同,以至于在一些情况下每个数秒去执行两次用户行动,能够产生比每秒20次用户行动都还要多的处理能力和网络带宽需求。
在低并发率时,英特尔的机器充分发挥了超级提升(turbo boost)功能及其优异的高每内核性能。在更高的网站负载时,总共96个(24 x 四核SoC)ARM Cortex-A9内核的总吞吐量比低功耗32线程/16核(2 x 八核)至强高出多达50%。即使强大的2660也不能胜出ARM SoC的集群。
尽管我们在x86服务器上有数不胜数的经验,但是我们在基于ARM的服务器上几乎为零,所以我们联系了嘉协达的工程人员,并且得到了一些颇有价值的优化建议。其结果是内部交换矩阵能够用多种方式来调配。例如,从一个节点出来的连接速度被默认设置为了2.5Gbit/s,在考虑到我们通常都受制于CPU并使用每个节点低于0.5Gbit/s时,这是相当的高了。将每个节点的连接速度降至1Gbit/S将降低功耗,并仍高于足够的带宽。我们也从嘉协达的PPA(Personal Package Archive)核心更新到略新的软件核(155)。这使我们能够采用CPUfreq工具来使用动态电压和频率扩展(DVFS,P-状态)。首先让我们看看如果进行了这些节能微调,是否降低了整体吞吐量。
这些调整没有给吞吐量带来任何提升(在很多情况下,其分值还略微降低),但是这些调整可能降低功耗和/或相应时间,让我们接着探究。
响应时间
如前一次,英特尔的机器在更低的并发率时性能更好,但是ARM服务器在高负载时提供了更短的响应时间,我们的优化对响应时间没有影响。
能量和功耗
现在到了一个百万美元问题:Boston和嘉协达在创造一种具有惊人的高性能/功耗比服务器上取得成功了吗?你们自己判断吧。
嘉协达真正地做到了这一点:每个服务器节点大约8.3W(200W/24),这是从墙上插座处实测得到的。这确实是嘉协达所承诺的:每个服务器节点(内部测量)大约6W(运行在1.4GHz),而外部测量升高到8.5W(同样运行在1.4GHz)。如果考虑到性能指标,这是让人不得不吃惊的。
此外,在使用CPUfreq并降低服务器互联速率时,我们得到了平均10%的功耗降低,以及在空闲时18%的功耗降低。这些优化对于空置时的功率消耗尤为重要,它们是比英特尔服务器的功耗略高和略低这一差异的关键所在。
定价策略
那么Boston Viridis服务器要花多少钱?一台带有24个1.4GHz节点和96GB RAM的Boston Viridis的官方报价是2万美元,这显而易见是非常昂贵。一台带有双10Gb、96GB RAM和两颗至强E5-L2650L的Dell R720服务器的价格范围是8千美元,你可以轻松地购买两台Dell R720并将性能加倍。至强E5服务器的更高的电费在这种情况下已几乎不是问题,除非你非常地节能。然而,这些系统都着眼于大规模部署。
购买整整一个机架的产品,其价格就降低到每个服务器节点352美元,或者每个服务器8500美元。我们有一些中等数量销售的经验,我们最恰当的估计是如果你购买20台,你一般会得到10-20%的折扣。这意味着至强E5服务器可能的价格是6500-7200美元,而Boston Viridis大约是8500美元。考虑到你获得一台内置的(5 x 10Gbit)交换机,以及Boston Viridis更低的电费账单,两者的价差就不再那么大了。
嘉协达的路线图和我们的观点
让我们清晰地看到:大多数应用在Xeon E5运行起来更好。我们的CPU基准测试清晰地说明了:任何需要经常访问内存的应用,或者需要高的每线程处理能力的应用,在至强E5上运行起来都更好。在至强E5上编译和安装软件立即可感觉到是如此的快速,不必再去做基准测试。
还有:如果你的要求高于一个四核Cortex-A9所能提供的性能,至强E5拥有更多的灵活性并且在大多数情况下是一种更好的选择。比起采用负载平衡器和其他复杂的硬件和软件来扩展,可扩展性终究更为方便。而且,Boston Viridis的管理软件完成了该项工作,但是Dell的DRAC、HP ILO、以及Supermicro的IM更加用户友好。
嘉协达已经认识到所有这些因素,因为他们给ECX-1000 SoC贴上了其首款“highbank”服务器架构的标签,以面向“早期采用者”。这就是我们为什么有意测试了一种与潜在早期采用者相关的场景:一个相对网络密集的网站服务器集群,因为它们提供大量的媒体文件。这是一种对嘉协达更好的场景,但是并不是最好的场景:我们可以想象一台流服务器或者存储服务器能够更加适合。特别是后一种情况,Boston Viridis的存储版本卖得不错。
另一方面是“不会”:现有的嘉协达服务器(还)不是英特尔至强处理器的杀手。但是,我们觉得嘉协达的ECX-1000服务器节点是革命性的棘手。当我们运行16个VM软件(而不是24个)时,双核的低功耗至强能够实现与嘉协达服务器节点一样的每VM性能。这意味着这种24节点系统能够在功耗低10%的情况下,提供比现在市面上最好的至强服务器之一多50%的吞吐量,这确实让我们吃惊。每个服务器节点的8W外部功耗——确实如嘉协达所声称的那样——的确是不得不令人关注,因为这意味着现在也可提供的带有48个服务器节点的机器,是更加的高效。
展望8W这一数字,现在的英特尔凌动处理器提供了类似的性能,也需要那样一种用于SoC的功耗,它们采用了英特尔顶级的32nm工艺技术生产。下一代的ARM服务器已经离我们不远了,并有可能在今年第三季度进入市场。这种“Midway”SoC是基于台积电28nm工艺的Cortex-A15芯片,这种28nm的Cortex-A15提供了50%单线程整数性能提升,而功耗仅仅有少量增加,并可以支持高达16GB的内存。鉴于此,可以放心地得出结论:下一款嘉协达服务器将是更大范围各种应用的好拍档,例如带有memcached的更大的网站服务器和中档的数据库服务器。届时,将借助KVM和Xen实现虚拟化,但是我们认为在ARM上的虚拟化只有在2014年带有64位ARM V8 ISA的A57进入市场时才能起飞。
现在,单个服务器节点的有限性能使Boston Viridis对电力有限制的、对CPU要求更低的数据中心的网站应用有吸引力,但是ARM内核极低的能耗和快速提升的性能为嘉协达技术展现了光明的前景。从短期来看,这是一个细分市场;但是在一到两年后,这种方式将能够轻松地侵蚀英特尔的更高端市场。
最新资讯
新品评测
+1 你赞过了