浪潮张东:现阶段企业优先建立大数据平台
- +1 你赞过了
【天极网服务器频道】近日,2014中国大数据技术大会(BDTC 2014)在京举行。大会现场分享了Hadoop、YARN、Spark、HBase、Impala、Tez等开源软件的最新进展,NoSQL与NewSQL、内存计算、流计算和图计算技术的发展趋势,以及大数据下的可视化、图计算、机器学习与深度学习、商业智能、数据分析等的最新业界应用。浪潮云计算产品研发部总经理张东在大会上分享了浪潮对行业大数据的理解。
张东认为,虽然互联网是大数据技术应用最深入的行业,但这并不意味着只有互联网才适合大数据,金融、税务、工商、交通等行业经过二十多年的信息化建设,积累了相当丰富的数据资产,其总体数据规模甚至要超过互联网,大数据技术在这些行业中有更加广阔的应用潜力。
然而张东也指出,行业大数据在数据采集阶段、数据分析处理阶段以及数据展现阶段,与互联网大数据存在相当大的区别,如在数据采集阶段,行业数据的多模态、多来源、跨时空、大规模等特性使得采集更加困难,数据格式相对复杂,而数据的归属权限也造成了数据分享壁垒。同时,传统行业缺少像互联网的专职编程人员,缺少既懂得业务又懂模型算法的复合型大数据分析师,难以将业务经验转换为计算机语言和模型,更加依赖应用开发商进行业务开发。
可以说,行业大数据的应用特点,赋予了提供大数据产品和服务的企业更大的发挥空间。张东认为,对于众多的行业用户而言,现阶段大数据应用的关键不在于充分挖掘数据的价值,而是要先把大数据平台建立起来。这些技术方面的限制可以交给企业来解决,如果把大数据平台看作一部“发动机”,经过不同的工程师调校,发动机的性能表现会有很大的区别,用户需要考虑的问题就是选择一个合适的“调校工程师”。
目前,浪潮在基础设施、大数据平台以及应用创新三大环节,提供全面的大数据产品、解决方案和服务。
在基础设施上,浪潮以融合架构为核心,着重通过计算、内存、网络解耦的硬件重构,充分发挥软件定义的价值。在异构计算领域,浪潮正着手开发、设计面向不同大数据应用的通用、轻量和重载计算单元,如视频处理、图像渲染、在线交易密集型等重载应用,需要可重构加速器件或众核处理器;模式计算、商业智能、数据挖掘等通用数据处理应用,更需要计算能力、IO能力、存储能力的均衡;企业搜索,流处理海量并发的轻量级应用则需要多核多线程低功耗处理器,并发线程优化。
内存计算是未来大数据高速处理的关键性技术之一。基于此,浪潮正在开发非易失存储介质(NVM)和传统内存(DRAM)的高可靠、大容量、低功耗构建异构混合内存,可实现写延迟3~5ns,IOPS不低于150万,带宽不低于10GB/s。
而对于下一代高速互联网络的开发,浪潮将基于硅光的低成本、高带宽互连技术,开发动态可伸缩的分布式网络拓扑架构,可实现400Gb/s互连,带宽提升20倍,成本降低20%。
浪潮大数据一体机是浪潮在大数据平台上的代表产品,整合了软硬件于一体,涵盖了流程与技术一体化、软件与硬件一体化、解决方案一体化三个层面,能够解决用户在数据挖掘、存储、分析等环节找不同供应商面临的服务整合难题。
云海大数据一体机经过全局性的优化,性能、可用性、效率等关键技术指标方面有了大幅提升。浪潮采用硬件加速技术,设计了专门的FPGA模块固化特定算法,并集成多级缓存,数据排序性能提高了50%以上;系统任务调度策略是影响系统响应及时性的重要技术,浪潮开发了动态调整任务执行模块,有效减少了慢任务数量,任务执行时间平均缩短16%;副本数量和存储效率是难以调和的矛盾,浪潮引入Reed-Solomon算法,优化分布式散列数据布局,满足文件高并发和高带宽双重需求同时平衡数据冗余度,所设计的两副本加编码的方式相对三副本最大可实现30%空间节省。
对于行业大数据未来的发展,张东认为,行业大数据将从业务驱动阶段,逐步过渡到数据融合阶段,最终实现数据驱动。而随着行业大数据应用的深入,大数据技术也将惠及更多的民生领域,为人们生活提供更多的便利。