华为高端存储助力某局数据中心建设
- +1 你赞过了
1 项目背景
随着某局核心业务的快速发展,业务数据量的剧增,原先存储系统无论是在性能、可靠性、扩展性还是效率方面,都无法满足业务快速增长的要求;因此,需要改造目前的IT系统,利用多控高端存储系统来构建未来的核心业务;所建设的高端存储系统,不但要在性能、扩展性、可靠性方面满足业务的发展需要,更要在数据安全性、存储效率、可管理性等方面有突出的表现,以便满足业务快速发展的同时提供更安全、更高效、更性价比的存储服务。
2 客户面临的挑战:
主要应用是关键业务系统的承载,在数据中心放置高端阵列,将所有关键业务系统的数据集中存储在高端阵列上;
业务负载均衡:针对多种丰富的业务类型,采用两套高端存储互为主备的模式达到业务负载均衡;
考虑到部分关键业务对服务质量的要求,此次系统支持SSD、SAS、NL-SAS盘混插,并能充分利用SSD高性能、NL-SAS大容量的特点,自动将热点数据存放在SSD盘、冷数据存放在NL-SAS盘上,实现业务对高性能与成本约束的平衡;
考虑到关键业务系统数据的重要性,高端阵列要提供与容灾备份系统互联的能力;
为便于统一的运维管理,需要提供分权分域的网络管理系统,兼顾现网网络路由器、交换机、服务器和存储共存现状,提供存储网络集中运维的能力,掌控存储资源的消耗和性能瓶颈,减小运维TCO。
3 华为解决方案
方案特点:
1) 配置2套华为高端存储OceanStor 18000产品,针对一部分业务,高端存储18000 A作为主存储,18000 B作为备用存储;针对另一部分业务,高端存储18000 B作为主存储,18000 A作为备用存储;两套存储互为备份提供数据灾备的同时,也便于后续根据业务发展需要将其中一套高端存储搬迁至另外新建的灾备中心;
2) 容灾技术采用华为领先的HyperReplication技术,2套存储的逻辑卷(LUN)之间建立复制关系;可以根据设置不同的策略,实现同步或异步的数据复制,保证数据的可靠性和业务的连续性;为了将不同的业务进行物理隔离以及提供更好的性能,将不同的业务均衡部署在2套存储上,互相利用另外1套存储作为备份;
3) 存储设备配置快照等本地保护软件,可以使用快照的数据进行数据分析和测试,以及在误操作等情况下,可以利用快照恢复数据。
4) 该设计初期为生产存储配置24块600GB 15K RPM SAS硬盘和24块3TB NL SAS大容量硬盘,未来可平滑扩展到PB级别;
5) 配置自动分级存储功能,实现不同存储介质间的数据纵向流动,将热点数据尽可能分布在高性能SAS硬盘上,将不经常访问的数据尽可能分布在低速NL-SAS硬盘上;
6) 通过部署eSight统一管理系统实现对全网服务器、存储、路由器和交换机的管理维护,简化运维
4 华为优势
4.1 高性能
高速总线及高速I/O通道保障系统性能
18000阵列系统产品采用新一代PCI-E 2.0总线技术及SAS2.0高速I/O通道技术,优化的多控交换技术,可提供最高1024GB/s的系统矩阵带宽,为存储系统整体性能的提高奠定了坚实的基础。
多控多核CPU组及Smart Matrix智能矩阵技术
多控多核CPU组为存储系统提供了更好的处理能力,同时通过Smart Matrix智能矩阵,各控制器可以访问其他所有控制器的缓存;并配合华为自研多路径UltraPath选择最优路径下发IO,使系统性能达到最优。
多控制器LUN均衡技术保证LUN空间均衡打散到多个控制器上,单个LUN的业务可以同时利用多个控制器的缓存和硬盘,使得不同控制器业务相对比较均衡。
华为自研多路径UltraPath在优选主机到阵列的路径时,如果有多条路径,多路径会优选LUN归属控制器的路径下发;如果没有优选路径,则IO下发到阵列后,系统会自动判断对应LUN业务应由哪个控制器处理,通过Smart Matrix智能矩阵将IO转发到对应控制器进行处理。
4.2 高扩展性
18800扩展性
18800标准配置一个系统柜,最大支持8个系统柜,可以实现从一个系统柜扩展到8个系统柜;
18800的系统柜配置3.5’硬盘框时,可以扩展硬盘柜,最大支持2个硬盘柜扩展;
机柜内部可以实现硬盘框扩容,硬盘框内可以支持硬盘扩容;
支持存储池、Thick Lun、Thin LUN的在线扩展,Cache集成在控制器中,可通过在线更换或增加控制器的方式扩展Cache;
4.3 高可靠性
具有充分的系统可靠性保证措施,保障系统高可用
部件冗余系统的控制器、电源、风扇、电池、交换矩阵、链路等均通过冗余备份保证可靠性,硬盘通过RAID保证可靠性。单个引擎内部,供电均采用1+1备份保证可靠性。
硬盘RAID保护支持RAID10/RAID5/RAID6等多种RAID保护方式
硬盘故障重构硬盘故障后,通过重构将该盘的数据重新生成并写入其他的多个硬盘上,当在线更换硬盘后,系统内部会在存储池范围内自动均衡;
硬盘防误拔硬盘被误拔出并重新接入后,如果时间不超过2分钟,硬盘自动恢复并提供业务,系统自动根据日志记录将拔出后写过的区域的数据重新写入硬盘;如果超过2分钟才接入原来的硬盘,则系统自动从全盘重构转为根据日志记录重写,以减小重构数据量加速恢复过程;
FRU在线更换引擎内前端接口卡、后端接口卡、管理卡、控制器、风扇、电源、电池均支持热更换;
掉电保护系统异常掉电后,通过电池供电将Cache内的脏数据写入保险箱,提供永久的掉电数据保护
DIF校验提供从主机->阵列->硬盘的I/O全路径、端到端DIF机制保证数据的正确性
各部件冗余及故障后对业务的影响微乎其微,并且各冗余部件均可实现在线更换,包括控制器、电源、风扇、电池、接口卡,PCIe交换机、硬盘等
位置FRU冗余情况故障影响
引擎控制器:1+1冗余性能下降不超过30%
电源模块2+2冗余无影响
风扇模块5+1冗余无影响
BBU模块2+2冗余无影响
接口卡1+1冗余无影响
PCIE交换机1+1冗余无影响
2U盘框级联板1+1冗余无影响
电源模块1+1冗余无影响
风扇模块1+1冗余无影响
4U硬盘框级联板1+1冗余无影响
电源模块2+2冗余无影响
风扇模块5+1冗余无影响
如出现磁盘故障,有完备的热备盘顶替故障盘的替换机制和换回机制
硬盘故障重构全局热备空间,硬盘故障后,通过重构将该盘的数据重新生成并写入其他的多个硬盘上;当在线更换硬盘后,系统自动将硬盘加入资源池,且自动启动数据均衡;
硬盘防误拔硬盘被误拔出并重新接入后,如果时间不超过2分钟,硬盘自动恢复并提供业务,系统自动根据日志记录将拔出后写过的区域的数据重新写入硬盘;如果超过2分钟才接入原来的硬盘,则系统自动从全盘重构转为根据日志记录重写,以减小重构数据量加速恢复过程;
18000高端阵列系统采用数据保险箱技术保证系统掉电时的数据安全。在系统紧急掉电时,系统由电池供电,把CACHE中数据写到数据保险箱中,保证CACHE数据永不丢失。外部电力恢复时,控制器再将数据从数据保险箱中回读到Cache中,继续完成对数据的处理。
最新资讯
热门视频
新品评测