PK双机热备 看透可靠性看透容错
- +1 你赞过了
沙地建楼,搞不好就会 “楼歪歪”。信息化也是如此,没有可靠性,业务也会没有保障。据有关机构统计,金融企业每次宕机损失平均为1000万美元,公司声誉等无形资产损失更是无法估量。系统可靠性,是信息化应用的前提。
为了追求系统可靠性,企业在信息化建设上投入大量的资金,从“两地三中心”,到系统冗余,数据备份,目的就是一个保障系统的安全可靠。对于关键业务应用而言,需要系统7×24×365不间断运行,对可靠性要求为99.999%,也就是全年累计的宕机时间不超过5分钟。
为了追求可靠性,双机冗余是最常采用的解决方案,也就是双机热备。通过采购2套系统,当一台机器出现故障的时候,另外一台机器接替其工作,确保系统不中断运行,两台机器之间依靠心跳线侦测进行判断和切换,接管服务。为了提高投资效率,两套系统之间尽可能采用互备、主从、并行等不同工作方式。尽管如此,采用双机热备,软件/硬件投资加倍,增加了用户负担。更为重要的是,采用心跳线侦测的方法,有时候会出现误报的问题,增加了新的不安全的因素。
从技术上看,双机热备的系统可靠性只有99.9%的水平,全年累计宕机时间不会超过8.8小时。要想实现99.999%,也就是5个9的水平,只有选用容错服务器。
容错服务器的代表厂商是美国的Stratus公司。从1980年Bill Fost创办Stratus至今,容错服务器已有30多年历史。期间容错服务器得到了很多投资人青睐,英特尔就是Stratus的第2大股东。
与双机热备方案相比,容错容易被用户忽略,价格高是其中很重要的原因。以往,容错服务器以往动辄上百万元,接近了小型机价格。高价位影响了容错的服务器的推广应用。但随着x86芯片技术不断进步,特别是多核技术的发展,容错服务器迎来新的发展机遇。以Stratus为首,容错开始抛弃专用芯片,采用x86通用芯片。如今Stratus入门级产品只需要10多万元。
单就硬件成本来说,容错还是高于双机热备。但从系统角度来考虑,特别是考虑软件的成本,容错服务器是一台机器,操作系统、数据库等软件只需要购买一套,可以大大节省软件的成本。也是因为这个原因,软件厂商从商业利益的角度出发,不会帮助Stratus等推广容错解决方案。软件厂商更愿意帮助服务器厂商推广双机热备的方案,追求双赢。容错只能是用户的选择。
影响系统可靠性的因素非常多,很多并不是双机可以解决的。以Windows应用为例,常有这样的用户体验,重启Windows有时候就可以解决问题。其中的原因就在于,无论是CPU、内存,还是I/O在计算或者传送数据过程中,都有可能受到电源波动、电磁等因素的干扰,产生错误的计算,影响系统可靠性。
只要是关键业务需要,无论计算量的大小,都需要高可靠性。以机场无人值守“Shuttle”火车为例,全部依靠系统控制,计算量不大,但要求具有很高可靠性,运行时间、开关门操控准确无误。稍有差池,就会酿成事故。在钢铁、电力、政府等很多应用领域,对于可靠性都具有非常高的要求,容不得半点差池。
在技术上,借助“锁步技术”,容错服务器可以最大程度校正硬件故障。在容错服务器设计上,CPU、内存、I/O等,全部采用冗余设计,并通过锁步技术,对每个计算过程进行比对,准确无误才会进入下一个步骤。因此其系统的可靠性可以达到5个9的 水平。
在国际上,容错技术得到用户的广泛认可。但在国内,用户受厂商、集成商的影响比较大。从商业利益考虑,厂商往往不会主动推荐容错技术,影响了容错在国内的发展。根据数据统计,国内采用容错技术的用户尚没有国外的1/3。此外,关键业务应用市场规模大,但单机数量小。在出货量上没有办法与PC服务器相比,市场份额不大,在各种统计报表中,容错往往被忽略,客观上也影响力了用户对容错的关注。
4月23日,亚马逊云计算数据中心故障为用户提了个醒。对于可靠性是没有办法完全假手他人的,就连云计算也没有办法真正做到可以完全不关注底层基础设施。可靠性还是需要引起高度关注的话题。在众多高可靠性解决方案中,容错技术是可选方案之一。
最新资讯
热门视频
新品评测