EMC紧盯大数据后的大机遇
- +1 你赞过了
由EMC赞助的一项IDC研究报告表明,用户和企业积累的数据量预计在未来十年内将增加44倍。海量信息构成了包括EMC在内很多厂商所谓的“Big Data”(大数据)。显然,大数据要求有EMC提供的存储以及产品和服务,因此最近关于EMC将大数据视为其关键市场之一的新闻报道也就不令人感到意外了。本文将简要介绍大数据及其含义,简单阐述EMC是如何通过收购Isilon和Greenplum来定位大数据市场的。
EMC将大数据暂定义为:“数据集或者信息,它的规模、分布、彼此孤立的位置或者时间线要求它们客户部署新架构来捕捉、存储、整合(到一个数据集)、管理和分析,以实现其商业价值。”这个定义目前还有些拗口,需要一些时间来消化,当然,这与EMC能做或想做的事情是相符合的。不过,这个定义涵盖了主题本质,并提出了一些关键要素。下面的一些实例有助于从更好的视角来理解大数据在现实世界的广泛分布:
·医疗信息——包括医疗图像,如MRI(磁共振成像)以及电子健康记录(EHR);
·网络带宽使用的增加——包括目前Facebook 用户每个月上传的20亿张照片,以及上传到YouTube和其他媒体网站的无数视频;
·视频监控——这是一个正在蓬勃发展的业务,需要大容量的存储,还需要先进的分析手段来分析图像信息;
·移动设备不断广泛使用——短信流永不停歇
·智能设备——基于传感器的信息收集发展前景光明,它使智能电网、智能建筑和许多其他公共和工业基础设施成为可能;
·非传统IT设备——包括RFID阅读器和GPS导航系统的使用;
·传统IT信息的非传统应用,包括OLTP (联机事务处理)转换至数据仓库,以应用分析、电子发现以及网络生产信息工具;
·特定行业需求,包括基因组研究、石油和天然气勘探、娱乐媒体等需要的高性能计算解决方案
可能有些挑剔的人认为这些并无新意。例如医疗影像和宽带网络访问已经存在很长一段时间了。回答是,大数据相关的变化可能主要是程度上的不同,有些时候也可以说是类型的不同。程度的不同源自相对以前更加密集的使用以及更大的规模——海量PB级存储。而类型的不同则涉及数据从模拟到数字的转换,以及利用新方法获取商业价值的需求。不过需谨记的一个关键点在于大数据是一个巨大市场,蕴涵了巨大的商机。从一个IT企业的角度来看,这就是为什么大数据得以重视的原因所在。
从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:
·结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;
·半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;
·非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。
然而,遗憾的是,这种分类方案仍然不够完美。首先,存在着许多混合和复合形式,如嵌入在Word文档中的图片。其次,虽然“记录”是一个适用于数据库的术语,大量的半结构化信息也存储在文件中,但还有许多其他存在于数据流的信息,如视频摄像头捕捉到的图像。另外,还存在着概念完全独立的对象。
最新资讯
热门视频
新品评测