好马配好鞍 看数人云与OCP擦出何种火花?
- +1 你赞过了
开放计算项目OCP是Facebook发起的一个项目,目前在于与业界分享更高效的数据中心设计解决方案。而近日Google的加入让OCP在数据中心建设方面的影响力更进一步。2015年6月,Facebook资助清华大学交叉信息研究院,成立中国唯一的一家OCP实验室。
自2015年9月开始,数人云和清华大学交叉信息研究院助理院长徐葳博士合作在OCP实验室开展数据中心方面的相关研究工作。数人云在数十台OCP服务器上部署了数人云DCOS,并进行了广泛的性能测试。
而就在近日,数人云联合清华大学交叉信息研究院开放计算项目实验室(OCP实验室)完成百万并发压力测试,数人云DCOS通过10台OCP服务器成功承载了百万并发HTTP请求。
据清华大学交叉信息研究院助理院长徐葳博士介绍,数据中心建设的成本一般包括两个部分,一个是固定资产投入的成本,比如硬件设备的购置;另一个就是运行的成本,比如电力成本和人员成本。数据中心如何能够更节能环保是关键,但是如何减少人工管理的成本也是必不可少的。Google的一个管理员就可以管理数千台服务器。
现在数据中心的软件建设正在成为重要的组成部门,因为这可以在运维上减少数据中心的成本。而数据中心软件的发展基本上就是开源软件的发展,比如OpenStack等。这次数人云与清华OCP实验室进行的压力测试,就是探索在OCP集群上实现高并发、低延迟的应用。
数人云能够为数据中心做些啥?
数人云DCOS为数据中心提供了开源的应用管理和资源管理解决方案,它可部署在公有云、私有云以及混合云上,帮助用户在云端快速建立并稳定运维一个高性能生产环境。数人云DCOS向下将底层服务器资源统一管理成一个资源池,向上承载用户的应用,帮助用户快速整合不同环境下的计算资源,部署海量应用。基于Mesos和Docker技术,数人云DCOS为用户的业务系统带来高可用的服务质量,高效的资源利用以及便捷的可视化管理和监控,同时,数人云DCOS还可以保证用户的计算资源和数据完全为用户私有可控。
数人云运维负责人庞铮认为数据中心经历了四个发展阶段,第一个阶段是单机数据中心阶段,第二个阶段是单点集群阶段,第三个阶段是混合业务集群组阶段,而第四个阶段是OCP+数人云实现的下一代数据中心。
庞铮表示,OCP本身是解决硬软件问题,一旦OCP把硬件问题解决之后,大量的软件和业务应用会运行在上面,如何管理就成为需要解决的问题。数人云就是利用开源软件技术,在硬件层面或者虚拟机层面建立一套软件的数据中心,也就是云操作系统。
说到本次实验的所有环境,首先是硬件全部用的是OCP的硬件资源,软件就是在OCP的硬件资源之上搭载了数人云的操作系统。这样做实现了OCP+数人云利用开源技术提供了下一代数据中心的性能、弹性和扩展。
数人云充分利用了Docker和集群技术实现了OCP硬件资源的高度抽象化,具体来讲首先是利用容器虚拟化技术将系统和软件环境打平,打平的意思是说把服务器的系统资源就当成硬盘来用,上面所有的软件全都是封装在Docker容器里。OCP机器只装最基础的操作系统以及Docker就可以实现所有软件应用的调度。用庞铮的话说就是把池子续上水,而不是说把池子分散成各个杯子。
在实现了硬件资源的抽象化后,数人云实现了动态调度和故障自动迁移。比如业务一旦挂掉了,集群技术就会会从另外一台机器拉起一个相同的业务来,这个机器不需要安装任何软件或者关联的操作系统,只需要把容器包下下来并启动,和另外一台机器操作是完全一样的。
在动态调度基础上,数人云实现了弹性扩展的能力,而使用容器集群解决了快速部署能力。在这些基础上进而实现了支撑大并发请求,也就是我们前面说的百万并发压力测试。
这次压力测试中,数人云DCOS提供了整个压测环境的安装部署和运行,包括压测工具Tsung、负载均衡器HAProxy、Web服务器NginX等等。数人云DCOS把压测环境涉及的所有程序都封装在Docker容器里,管理调度整个压测环境运行的数千个Docker实例。
数人云DCOS在数十台OCP服务器上部署Tsung,模拟每秒一百万用户HTTP请求,在4台OCP服务器上部署HAProxy,在6台服务器上部署NginX,4台HAProxy负责把一百万用户请求分发到6台NginX服务器上,这6台NginX服务器来处理一百万用户HTTP请求。数人云DCOS对HAProxy和NginX进行深度调优,每台HAProxy服务器(48核CPU、140G内存、万兆网卡)可以处理27万并发HTTP请求,每台NginX服务器(32核CPU、140G内存、万兆网卡)每秒可以处理19万HTTP请求(NginX的HTTP响应为Lua脚本做的动态页面,以防止静态HTTP页面被缓存)。
数人云DCOS最终仅用10台OCP服务器就承载了百万并发HTTP请求,用Tsung模拟每秒钟100万个用户的并发请求,每秒平均处理85万请求。
庞铮介绍说,这次压力测试只是一个测试而不是真实的业务环境,在实际业务环境下究竟能否达到这样的环境,取决于两个条件。第一就是程序的好坏决定了它的吞吐能力。第二是机器的数量决定了它的吞吐能力。因为这次只是一个测试,并不能说我们使用10台就能实现真实业务下的百万工作负载,业务对硬件的真实负载决定了用多少台机器得到百万承载能力。
结语
其实就在前一段时间数人云完成了A轮融资,致力打造下一代DCOS。通过基于Docker和Mesos开源技术,构建轻量级的PaaS平台实现一站式的微服务架构集群系统,最大化地帮助客户实现应用业务在云端的快速部署。这次在OCP实验室的压力测试充分说明了数人云DCOS承载业务应用方面的性能、弹性和扩展优势。