大数据对于数据中心管理者会带来怎样的影响呢?
驱动大数据增长的主要因素包括移动设备和社交网络的大幅度增长、以往纸质文件的数字化以及科研数据的增长。这也就是EMC旗下的Isilon公司美国首席技术官RobPeglar所说的“隐性增长”。这是公司档案和备份文件带来的增长。“他们的存档文件正在高速增长,因为他们并不清楚哪些需要保存,哪些不需要保存,”Peglar说道。
各个产业的公司都在为大数据分析投入大量资金。其中一个产业为对病人数据进行分析诊疗的医疗产业。Peglar说,在金融服务产业,对数据进行定性分析也颇受关注。在这方面,分析的是杂乱无章的股票交易数据。大数据分析在制造和设计业的应用也有所增长,但增长最快的市场还是对用户行为数据进行分析以获得市场情报信息的社会媒体和电子商务产业。
Hadoop——处理大数据的宠儿
在众多的大数据分析平台当中,最为人所知的是ApacheHadoop平台。这是一个用于分布式计算的开源软件框架。Hadoop源于Google的MapReduce软件框架以及Google使用的专有文件系统“Google文件系统”。Hadoop项目的参与者包括雅虎、LinkedIn、Facebook、Twitter、加州大学伯克利分校、Last.fm等。
大数据分析需求的增长主要受杂乱无章的数据的驱动,这正是Hadoop所擅长处理的数据。“这是对传统结构化数据库的补充,”Peglar说道。“结构化数据在增长,但是杂乱无章的数据的增长率要快得多。”
除非能部署一个由Isilon、Teradata或Oracle等公司提供的大数据应用,否则公司很有可能将类似Hadoop的分析平台的计算基础设施部署在商用硬件上。451集团的资深分析师RachelChalmers称,“Hadoop对其运行的基础设施平台做出了某些假设。”
由于Hadoop基于Google的MapReduce,因此设想它将运行在类似Google的同质商用基础设施之上。此外,它还了解哪些CPU将用于服务器硬盘存储,”Chalmers解释道。
没有处理大数据的通用平台
部署哪种类型的分析系统将取决于客户的特定需求。数据分析领域的主要公司Teradata的产品营销总监JimDietz称,某些客户对处理速度的需求高于对处理数量的需求。在这种情况下,他们会购买一个超高性能的应用。而对于那些希望存储并分析数千用户行为数据的客户,他们则需要可存储各种海量数据,并具有高处理性能的解决方案。
此外,公司所部署的解决方案设计还必须具有足够的灵活性,以应对未来的强劲增长需求。
大数据意味着高密度
Peglar说,可能影响数据中心管理者大数据(尤其是杂乱无章的大数据)基础设施部署的首要因素是存储。这些存储阵列的面积和电力需求取决于它们对能源及对可用存储空间的使用效率。
“其中的一个基本组件为磁盘驱动器,以及所选平台对该磁盘空间的使用效率,”Peglar说道。目前,功率密度是部署大数据分析平台过程中计算领域的一个主要关注点;此外,磁盘阵列所消耗的电力也越来越成为关注的重点,他说道。
该关注主要源于所需存储阵列的规模,以及这些存储需求的增长率。Peglar发现,在短短几年的时间里,某些客户的集群从1拍字节(petabyte)增长到了5拍字节(petabyte)。
大数据计算节点部署的密度可能非常高。Peglar说,这些部署的功率密度可达到3kW或更高。这对于数据中心的管理者确定电力和制冷基础设施的规格具有明显意义。