很难说Netezza创始人们是否预见到了八年后大数据和云计算浪潮的澎湃气势,也很难说Netezza在创立初期就采用以IBM System X服务器为基础的硬件是为了有朝一日融入蓝色巨人,但是创始人的目标即使并非细节到这两件事情上,其创立的Netezza公司作为Appliance一体机市场的开山之作,也绝对可以称得上是高瞻远瞩。
Netezza在2010年11月作价17亿美元被IBM收购,这或许印证了当初创始人们采用IBM基础硬件是多么的英明,也或许验证了蓝色巨人对大数据、一体化概念和应用集成系统的看好,但在在融入IBM之后——尤其是被归入IBM软件集团而非IBM系统与科技事业部——这家公司确实证明了自己存在和被收购的价值,且不仅仅是在数据仓库一体机领域。
IBM Netezza不仅以超乎想象的速度在业界发展,继续履行Netezza的创始人们一开始就认准的信条:更好的融合软件,更好的保持自己在集成性能方面的领先优势,更在蓝色巨人的怀抱下开始发展更为广阔的产品家族,并与IBM的软件产品家族开始深度的整合与融合——DB2 Analytics Accelerator实现了Netezza与DB2、z/OS的紧密整合。
而在成为“IBM Netezza”之后,这家公司坐拥IBM强大的市场影响力和丰富的用户资源,开始面对更加广阔的市场,加之Netezza作为数据仓库一体机的开山之作,这几年又不断地进行更新升级,Netezza在大数据、云计算以及非结构化数据市场展现出其在数据分析、数据挖掘方面的强大实力,虽然在数据仓库一体机市场上Netezza有着强劲的竞争对手——Oracle推出的Exadata目标直指Netezza——但Netezza如今仍然信心满满的打算在中国市场大干一场。
IBM Netezza产品管理和产品市场营销副总裁Phil Francisco
“今天我们谈到最快、最新的一体机,其实已经比最初的在性能上提高了有300倍了,虽然说我们已经更新到了第四代,但是已经不可同日而语。”IBM Netezza产品管理和产品市场营销副总裁Phil Francisco认为,虽然竞争对手势头正猛,但是八年来建立的领先优势与用户基础,让Netezza在市场上并无隐忧。
平台解析:Netezza不可思议
与竞争对手的X86平台不同,Netezza平台虽然同样基于标准X86平台,但是其设计理念糅合了标准化平台、专用协处理器(加速器)、软件整合平台等多种概念,作为数据仓库“设备(Appliance)”而非数据仓库硬件平台或单纯的软硬件整合。
Netezza面向数据仓库应用,将数据库、数据处理、数据存储以及数据挖掘集成在一个优化的、紧凑的Appliance系统中,而非一系列的硬件平台或是非紧耦合的解决方案,其大致基于三点理念设计:1、数据处理尽可能接近数据源:利用现场可编程逻辑门阵列(FPGA)组件尽早的将多余的数据从数据流中过滤掉,以减少其对硬盘空间的占用;2、平衡的大规模并行架构:Netezza的架构结合了SMP(对称多处理)和MPP(大规模并行处理)的优点,建立了一个能以极快的速度分析PB量级数据的设备。
该架构中的每一个组件,包括处理器、FPGA、内存和网络连接都经过了精心的挑选和优化,在硬盘物理条件许可的情况下,以最低的成本和能耗快速地处理数据;3、拥有高级分析的平台:MPP和在接近数据源的地方进行数据处理的方法也同样适用于针对于大型数据集所进行的高级分析,Netezza系统能够轻松地将复杂的非SQL算法嵌入到MPP流的处理组件中,并且没有并行程式或网格程式所具有的典型复杂性。
除此以外,其设计理念还包括简单的设备、加快创新和性能提升、灵活的配置和极强的可扩展性。但上面所说的三个特点是Netezza之所以称为“Netezza”的重要原因,没有之一。
Netezza与纯X86平台最大的不同就是构成被称为涡轮的MPP引擎的S-Blades智能处理节点,在每一个S-Blades节点中,Netezza都配备了多核CPU、多引擎FPGA和GB级别的RAM,而FPGA更是成为这个X86平台中做特殊的组成部分。
按照IBM官方的说法,FPGA主要用于“加速数据的处理速度”,作为协处理器,这块FGPA实际上基于其本身的现场可编程的特点,可以加快改造后的PostgreSQL数据库的处理速度,而每个刀片上都配置8个FPGA的“高端配置”,将数据从存储中调出并进行初筛的速度大为提高,这至少促成了Netezza的两方面能力:一是比传统系统超过10倍的速度提升(事实证明,紧靠X86处理器还有有些力不从心);二是借助如此快的数据筛选和提取速度,使得Netezza目前最高端版本的TwinFin(系统节点)可以达到PB级别的客户数据容量。
而在Netezza中,结合了SMP(对称多处理)和MPP(大规模并行处理)混合结构实现了系统高可用性、接口标准化、负载均衡任务分配及高速智能处理的功能, SMP+MPP的混合架构功不可没——据IBM Netezza大中华区渠道经理郑晓军表示,Netezza利用X86处理器架构了SMP和MPP架构,而非POWER+X86的架构,但是去可以得到同样的高性能和高可靠性,这不得不说是Netezza设备上的一个亮点。
作为数据仓库一体化系统,其工作内容即不仅仅限于SQL语句,这也就要求Netezza同样支持高速、高可靠的非SQL算法,而Netezza系统能够轻松地将复杂的非SQL算法嵌入到MPP流的处理组件中,且没有并行程式或网格程式所具有的典型复杂性。这种针对庞大的数据量能够以“流水线”方式对复杂数据进行分析处理的能力,能够消除将数据转移到单独硬件的延迟和开销, 为数据仓库和高级分析方法的融合提供了一个理想的平台,同时其性能也提高了几个数量级。
从以上几点可以看出,Netezza与传统的数据库、数据仓库解决方案不同,从平台设计、架构搭建初始,就是按照数据处理、分析、挖掘和存储来进行设计,而非面向通用的计算或存储应用,可以说是“专款专用,定制化设计”,SMP+MPP的混合模式、FPGA的引入以及大容量的RAM都是为加快此类应用的速度和效率而设计——Netezza可能不是一款好的通用系统,但高度定制化的Netezza想必会是一款好的数据仓库设备。
这也显示出了Netezza与竞争对手的最基本的不同:为应用而定制硬件,而不是为了硬件部署应用——这完全是两个概念,对于数据库应用来说,加快SQL语句执行、进行数据筛选和负载均衡是必备,针对于此设计的系统能够更适合于此类型的应用,这也就是为什么Netezza宣称能够达到普通系统10-100倍的原因之所在了。
大数据时代来临 传统数据仓库受限
“有时候,大数据比你希望的还要大,而出于合规或商业上的原因,你还必须将它们存储更长的时间。没什么比从磁带中获取旧得要发霉的数据更糟糕的了,而如果还是一大堆这样的数据的话,那就更糟糕了,而且还可能出问题。”有鉴于此,IBM的Netezza将TwinFin数据仓库设备在刀片和磁盘上进行了重新配置,加大了磁盘的分量而降低了刀片的分量。这样用户实际上可以自己创建一个近线的数据仓库。
从目前分析机构的调查来看,存储基础设施的容量、性能随着硬盘容量和处理器性能的提升,以及固态硬盘等新技术的发展,能够基本满足企业业务的需求,数据增长所带来的挑战,正在逐步开始转移到更为深入的数据分析与数据挖掘,以及如何通过数据信息、知识化的数据管理企业的业务需求——存储系统的发展勉强遵循着类似摩尔定律的发展规律,但数据分析和数据挖掘却并未在“这条规则的映照之下”。
企业需要利用先进的技术和解决方案来管理数据增长,将数据转化为可操作的信息,并驾驭这些信息,使其成为提供对业务洞察和带来创新的战略性资产。此外,大型多媒体、基于互联网或其他形式的数千兆字节“大数据”不断增长——这体现出,非结构化数据作为从中挖掘信息及其他商业用途的竞争资源,其增长变得越来越重要。
企业管理者们需要使‘大数据’的分析更好地符合人们的行为,使人们进行更深入的分析、更具相关性的洞察,推动创新、促进研究,更好地协作,建立更加可持续发展的IT基础架构。
以今年8月份开始采用Netezza Twinfin3数据仓库平台产品,将Netezza作为数据中心建设、快速运行分析的数据平台系统的联动优势为例,这家公司截至2010年12月底,服务用户超过4亿,年处理资金300亿元,每天大概交易笔数15万-20万。对于这样的数据和记录量级来说,传统的数据库+数据挖掘工具或数据仓库模式显然已经难以承载。
更多大数据 更多Netezza
据Phil Francisco表示,Netezza很早就认识到大数据是未来的趋势,因此在设计TwinFin的时候,就考虑如何设计高容量、高性能的高端版本,目前除了供研发测试使用的Netezza 100和面向1TB-1.5PB级高性能数据仓库和分析的Netezza 1000,今年夏天“Netezza推出了High Capacity”,“它将提供500TB到甚至是10PB