ARM价值几何 Calxeda服务器评测报告：下篇

昨天的《ARM价值几何 Calxeda服务器评测报告：中篇》评测是针对理论数据、处理器性能以及应用环境的探讨，接下来我们看一下在真实环境中的性能，并且对整个评测数据进行一下总结。

真实环境测试

我们构建了两套系统，至强系统带有两对不同的至强CPU、128GB内存和ESXi 5.1。我们在至强服务器上创建了24台虚拟机，在每一个虚拟机中我们设置了一个带有四个虚拟CPU和4GB RAM的phpBB(Apache2, MySQL)网站，每个网站使用了大约8GB的硬盘空间。我们模拟了高达75个并发用户，他们每隔0.6 – 2.4秒发出新的请求。

Boston Viridis服务器被加以了相同的工作负载，但是替代使用虚拟机的是：我们使用了24个物理的服务器节点。

自从在2010年后期被重新设计之后，我们的vApus stresstesting framework 非常适合于用大量并行的工作负载来点击(无论是否是虚拟化的)集群。一台四核7400服务器能够产生24个测试用户，该服务器被连接到我们的Dell PowerConnect 8024F (10Gbit以太网)上，后者被连接到被测试的服务器上。

//images.anandtech.com/doci/6757/vApus24webservers_575px.png

vApus hitting 24 web servers in parallel

vApus可同时点击24个网络服务器

使用这种方法，我们能够对一种网站托管环境进行仿真，其间的数十个网站每秒被数千个访问者点击。这听起来可能不令人印象深刻，但是这些每秒数千个请求给一个网站环境每天带来了一亿次点击。

因为我们确保了我们的网站服务器能够提供一些高质量的图片(png)，因此所发生的网络流量是巨大的。我们测试到的峰值达到了8Gbit/s，同时典型的网络流量是大约4 – 6Gbit/s。

结果非常重要

在你跳到下面的图表之前，我们建议花一些时间来恰当地翻译一下结果。首先，我们在网站服务器模拟了每秒5到10位“繁忙”的用户。当一位用户点击网站上的某个地方时，这将产生一些请求或者数十个请求。例如，连接网站上的论坛将产生两个简单的“GET”请求，同时发布一条回复将产生一次雪崩般的56次POST和GET，这就是我们为什么以“每秒的响应数”来报告性能的原因。如果你用统计上足够大的数量来分析它们，从CPU负载点的角度来看，响应从某种程度上是与之相似的。用户行为是如此的不同，以至于在一些情况下每个数秒去执行两次用户行动，能够产生比每秒20次用户行动都还要多的处理能力和网络带宽需求。

Webhosting throughtput—average over 24 web servers

在低并发率时，英特尔的机器充分发挥了超级提升(turbo boost)功能及其优异的高每内核性能。在更高的网站负载时，总共96个(24 x 四核SoC)ARM Cortex-A9内核的总吞吐量比低功耗32线程/16核(2 x 八核)至强高出多达50%。即使强大的2660也不能胜出ARM SoC的集群。

尽管我们在x86服务器上有数不胜数的经验，但是我们在基于ARM的服务器上几乎为零，所以我们联系了嘉协达的工程人员，并且得到了一些颇有价值的优化建议。其结果是内部交换矩阵能够用多种方式来调配。例如，从一个节点出来的连接速度被默认设置为了2.5Gbit/s，在考虑到我们通常都受制于CPU并使用每个节点低于0.5Gbit/s时，这是相当的高了。将每个节点的连接速度降至1Gbit/S将降低功耗，并仍高于足够的带宽。我们也从嘉协达的PPA(Personal Package Archive)核心更新到略新的软件核(155)。这使我们能够采用CPUfreq工具来使用动态电压和频率扩展(DVFS，P-状态)。首先让我们看看如果进行了这些节能微调，是否降低了整体吞吐量。

Webhosting throughtput Optimized—average over 24 web servers

这些调整没有给吞吐量带来任何提升(在很多情况下，其分值还略微降低)，但是这些调整可能降低功耗和/或相应时间，让我们接着探究。

响应时间

Webhosting Response time optimized—average over 24 web servers

如前一次，英特尔的机器在更低的并发率时性能更好，但是ARM服务器在高负载时提供了更短的响应时间，我们的优化对响应时间没有影响。

能量和功耗

现在到了一个百万美元问题：Boston和嘉协达在创造一种具有惊人的高性能/功耗比服务器上取得成功了吗？你们自己判断吧。

Webhosting server Energy & Power

嘉协达真正地做到了这一点：每个服务器节点大约8.3W(200W/24)，这是从墙上插座处实测得到的。这确实是嘉协达所承诺的：每个服务器节点(内部测量)大约6W(运行在1.4GHz)，而外部测量升高到8.5W(同样运行在1.4GHz)。如果考虑到性能指标，这是让人不得不吃惊的。

此外，在使用CPUfreq并降低服务器互联速率时，我们得到了平均10%的功耗降低，以及在空闲时18%的功耗降低。这些优化对于空置时的功率消耗尤为重要，它们是比英特尔服务器的功耗略高和略低这一差异的关键所在。

定价策略

那么Boston Viridis服务器要花多少钱？一台带有24个1.4GHz节点和96GB RAM的Boston Viridis的官方报价是2万美元，这显而易见是非常昂贵。一台带有双10Gb、96GB RAM和两颗至强E5-L2650L的Dell R720服务器的价格范围是8千美元，你可以轻松地购买两台Dell R720并将性能加倍。至强E5服务器的更高的电费在这种情况下已几乎不是问题，除非你非常地节能。然而，这些系统都着眼于大规模部署。

购买整整一个机架的产品，其价格就降低到每个服务器节点352美元，或者每个服务器8500美元。我们有一些中等数量销售的经验，我们最恰当的估计是如果你购买20台，你一般会得到10-20%的折扣。这意味着至强E5服务器可能的价格是6500-7200美元，而Boston Viridis大约是8500美元。考虑到你获得一台内置的(5 x 10Gbit)交换机，以及Boston Viridis更低的电费账单，两者的价差就不再那么大了。

嘉协达的路线图和我们的观点

让我们清晰地看到：大多数应用在Xeon E5运行起来更好。我们的CPU基准测试清晰地说明了：任何需要经常访问内存的应用，或者需要高的每线程处理能力的应用，在至强E5上运行起来都更好。在至强E5上编译和安装软件立即可感觉到是如此的快速，不必再去做基准测试。

还有：如果你的要求高于一个四核Cortex-A9所能提供的性能，至强E5拥有更多的灵活性并且在大多数情况下是一种更好的选择。比起采用负载平衡器和其他复杂的硬件和软件来扩展，可扩展性终究更为方便。而且，Boston Viridis的管理软件完成了该项工作，但是Dell的DRAC、HP ILO、以及Supermicro的IM更加用户友好。

//images.anandtech.com/doci/6757/CalXeda-roadmap_575px.png

嘉协达已经认识到所有这些因素，因为他们给ECX-1000 SoC贴上了其首款“highbank”服务器架构的标签，以面向“早期采用者”。这就是我们为什么有意测试了一种与潜在早期采用者相关的场景：一个相对网络密集的网站服务器集群，因为它们提供大量的媒体文件。这是一种对嘉协达更好的场景，但是并不是最好的场景：我们可以想象一台流服务器或者存储服务器能够更加适合。特别是后一种情况，Boston Viridis的存储版本卖得不错。

另一方面是“不会”：现有的嘉协达服务器(还)不是英特尔至强处理器的杀手。但是，我们觉得嘉协达的ECX-1000服务器节点是革命性的棘手。当我们运行16个VM软件(而不是24个)时，双核的低功耗至强能够实现与嘉协达服务器节点一样的每VM性能。这意味着这种24节点系统能够在功耗低10%的情况下，提供比现在市面上最好的至强服务器之一多50%的吞吐量，这确实让我们吃惊。每个服务器节点的8W外部功耗——确实如嘉协达所声称的那样——的确是不得不令人关注，因为这意味着现在也可提供的带有48个服务器节点的机器，是更加的高效。

展望8W这一数字，现在的英特尔凌动处理器提供了类似的性能，也需要那样一种用于SoC的功耗，它们采用了英特尔顶级的32nm工艺技术生产。下一代的ARM服务器已经离我们不远了，并有可能在今年第三季度进入市场。这种“Midway”SoC是基于台积电28nm工艺的Cortex-A15芯片，这种28nm的Cortex-A15提供了50%单线程整数性能提升，而功耗仅仅有少量增加，并可以支持高达16GB的内存。鉴于此，可以放心地得出结论：下一款嘉协达服务器将是更大范围各种应用的好拍档，例如带有memcached的更大的网站服务器和中档的数据库服务器。届时，将借助KVM和Xen实现虚拟化，但是我们认为在ARM上的虚拟化只有在2014年带有64位ARM V8 ISA的A57进入市场时才能起飞。

现在，单个服务器节点的有限性能使Boston Viridis对电力有限制的、对CPU要求更低的数据中心的网站应用有吸引力，但是ARM内核极低的能耗和快速提升的性能为嘉协达技术展现了光明的前景。从短期来看，这是一个细分市场;但是在一到两年后，这种方式将能够轻松地侵蚀英特尔的更高端市场。