提到大数据,人们自然而然地会想到与之密切相关的两个提法,这就是“创新”和“成本”,只有平衡好两者之间的关系才能将大数据转化成企业的竞争优势。创新,虽然大家都认识到大数据的重要性,但很多时候由于成本、技术上的原因,没有办法对所有的数据进行分析,很多客户只能从一年或几年的客户数据中抽取出一个月的作为样本来做分析,而现在,有了像Hadoop这样的开源平台,可以让客户以节约成本的方式进行全部客户数据的分析,客户可以利用这些分析结果进行全面的创新。而对于成本,数据量持续不断地成倍增长,且复杂性也不断增加,这一趋势永远不会停止,我们很难把所有数据都放在数据仓库中,随之而来的是成本很难控制,所以在获得更多创新的同时,也要兼顾降低数据的成本。
平衡创新和成本是利用大数据首要条件
Informatica提倡的价值主张是要最大化的实现数据的回报率,如果能够增加数据的价值,降低数据的成本,客户就能将数据回报最大化,以更低的成本实现新的收入,以及确保其业务具有独特的竞争优势。数据价值就是上面提到的创新之路,Gartner 的分析师Neil Chandler 在《21世纪的信息管理》报告中提到:到2015年,那些将高价值、多样和最新的信息类型及来源集成到统一连贯的信息管理基础设施的组织,其财务表现将较业内同行优越20%以上。数据价值和数据成本的一升一降之间,最值得关注的就是如何来平衡创新和成本。
先来用实例来说明一下大数据在开发创新产品和服务中的重要作用。第一个例子是美国总统竞选,这次奥巴马的竞选团队中有一位名位Nate Silver的数据科学家,他用Hadoop技术做大数据分析,帮助奥巴马分析并审视每个洲的竞选数据,提前预测结果,这是一个创新,也是政治与科技的完美结合。第二个例子是产品宣传单的邮寄,很多商场和零销商都将客户数据作为自己的秘密武器,利用好了大数据能够更有针对性的进行产品推销。比如对于单身女性,如果店家寄一些电子儿童玩具或男性用品宣传单肯定会被丢掉,而纸张的浪费会增加产品成本。第三个例子是关于“互联车辆”计划,一家大型国际汽车制造商,希望在能够持续收集所有车辆的全部信息,在年底时,把数据传送到中央Teradata数据仓库里,利用PowerCenter、CDCT和CEP实现实时数据集成,通过数据分析来预测维修维护和提高燃料效率,电话道路救援和自动调度服务。这些创新的例子,一、两年前还不是很普遍,但现在由于大数据的出现已经都可以实现。
降低数据管理成本五要素
那么,如何降低和控制成本呢?提起数据仓库,在业界有一个黄金的时间,就是从凌晨2点到早上8点做ETL。但当数据量越来越大后,很难在6个小时内把这些数据分析处理完成,批量窗口已到极限,SLA处于危险之中,很多企业想控制成本但又感觉力不从心。我们认为,并不是所有的数据都需要放到企业数据仓库里,也不一定非要在2点到8点这段时间内做数据分析。Informatica建议通过五种方法来降低企业数据管理成本,包括:
第一种,可以把原数据存储在低成本的商用硬件上,商用硬件不一定是36个CPU的计算机,2或4个CPU的计算机即可满足大数据分析。将 ETL/ELT 处理转移到低成本的商用硬件上。
第二种,借助实时数据集成,平滑实现ETL处理;借助高速数据复制,从源系统中卸载处理实时的数据集成。Hadoop不是一个实时的数据集成系统,数据放到Hadoop需要计算几个小时才会出结果,现在Informatica有一个新的算法,通过高速数据复制和实时数据集成两种方式降低数据处理成本。高速的数据复制可以从那些大型机或源数据处,高速地把数据复制到ODS或者是企业数据仓库里;另一个实时的数据集成是Informatica新品PowerCenter大数据版的重要功能,通过实时的数据集成方式,让用户不需要把所有的数据都堆积在一起,凌晨2点再统一放到数据仓库中,而是可以实时地、随着数据逐渐产生一点一点把数据迁移过来处理。
第三种办法是让开发人员通过一次开发,即可实现随地部署。Hadoop是一个很好的平台,但缺少对其熟练操作的开发人员,人工成本非常大。Informatica提供给用户一个可视化的图形开发工具——Common IDE,通用的IDE可以在传统的网格上面执行,也可以在Hadoop上面执行,生产效率会提升三倍。这样还可以把普通开发人员变为Hadoop开发人员,大大降低数据管理成本。
第四种办法为降低数据管理成本即数据虚拟。Informatica 9.0版本就有Data Service,这实际上就是一个数据虚拟的平台。数据虚拟在很多方面都很有用,比如BI,以前是把数据放在数据仓库里,然后BI再从数据仓库里去抓取数据做分析,现在BI可以直接到源数据中,用数据虚拟办法把数据提取出来分析。这消除了数据副本,通过数据虚拟化提升数据仓库能力。
第五种是识别休眠数据,将不活跃的数据归档到低成本存储。Hadoop也可以作为数据归档的平台,但是,Hadoop做数据存储要对每个数据做3次复制,硬件压力很大,数据管理成本增加,所以应该把不活跃数据归档至更低成本存储上。我们还能以1:10的压缩比对数据做很大的压缩,更有利于数据保护。
PowerCenter大数据版减少新技术风险、降低大数据成本
informatica是数据集成领域的绝对领导者,在Gartner“2012年数据集成工具魔力象限”报告中位居领导者地位。Informatica始终将数据视作寻求创新、增长和效率的一种资产,帮助企业将大数据项目风险降至最低,并协助其实施久经验证的创新之路。针对大数据的三个维度——容量、种类及速度,Informatica都有相关不同的产品。PowerCenter大数据版是Informatica今年年底即将推出的一款新品,使企业能够高速、大量、多种类地将社交、移动设备、云以及机器中的数据增加到传统交易数据中。PowerCenter大数据版通过以下方面减少新技术风险,降低大数据项目的成本:
高速数据存入和提取——跨异构环境进行大数据加载、处理和提取,以优化Hadoop和传统数据管理基础设施间的端到端的数据流。
无编码开发环境——使用Informatica可视化开发环境去除Hadoop中的手工编码。开发和测量数据流而无需专门的手工编码,以最大限度提高重用率。
虚拟数据机——允许用户一次建立转换逻辑,在Hadoop、传统ETL网格基础设施甚至数据联合应用上任意部署。开发者可在虚拟数据机上只创建一个单一的图形映射集,且将他们运行在多种数据平台和部署模型上。
在Hadoop上近乎通用的数据访问和全面地ETL——使用一个丰富的、预建的ETL库可靠地访问多种类型和来源的数据,对运行在Hadoop或传统网格基础设施上的交易和交互数据进行转换。
PowerCenter大数据版为用户提供了一种业经验证的创新方法,这种方法是建立在Informatica基于GUI(图形用户界面)的开发环境和Informatica在数据集成领域长期领导地位的基础之上的。PowerCenter大数据版从多方面降低了大数据项目成本,提高生产率,加速创新产品和服务的上市速度,确保了企业大数据之旅安全畅通。
郑玮观点
BI的发展现状
BI在前几年比较火,现在随着大数据的出现依然保持着旺盛需求。BI和ETL是一种很好的竞争,以前BI是从数据仓库中拿出数据做分析,现在BI可以和Hadoop直接联系,现在很多新BI的公司觉得并不需要用ETL做数据分析,现在可以之际在Hadoop上做数据分析,BI现在越来越红。
硬件层面的数据分析:
对于数据分析,现在不仅软件在进步,硬件上面也在发展,现在有很多内存的数据分析,对于那些没有PB级别数据的企业,可以选择这种内存的数据分析。Hadoop存放数据量很大,但数据是放在磁盘里的,数据分析速度会很慢,而把数据放到内存去分析,速度将会非常快,而且因为内存相对来讲价格低,所以还可以节约成本,现在很多公司喜欢用内存作分析。
关于大数据的安全性,Informatica在产品设计上的考量点
如Hadoop之类的开源软件经济效益好,但存在数据安全性漏洞,特别是金融企业,在应用Hadoop时数据安全性是比较为难的地方。Informatica也在研究如何解决安全问题,解决方案是把Hadoop放在数据虚拟层面中,数据虚拟化可以提供数据安全的功能。
Hadoop和传统数据仓库的使用和配合
现在人们比较容易接受的一种说法是,如果数据是非结构、半结构的,一定要用Hadoop;如果是结构性数据的,可以用传统的数据库去做数据分析。但我个人觉得这两种方法是可以交叉使用的。要考虑数据量,还有是否是新建项目,很多客户已经花大量费用建立了数据库,而且应用效果良好,没有必要换掉。许多客户都是在上马新项目时用Hadoop来做数据分析。
有关PowerCenter大数据版的培训课程
从陌生到熟悉这个数据开发,一般来讲需要3个月时间,Informatica线下学习课程是一个星期,也可以在网上下载相关的课程。
Informatica产品在医疗行业,特别是中医的应用
中医是通过号脉来诊治病人,每个病人的体质都不同,这种情况下如何利用大数据呢?中医的例子非常像DNA的分析。每个人DNA都不一样,每个人不同的DNA都放在数据库里面,然后对有关联的一组DNA做结构数据链分析,分析出此类病人容易有癌症隐患,然后给出一个治疗方案,美国一家治疗癌症的医院,就是用Hadoop把所有容易得癌的DNA找出来,这个过程会很慢长,而应用Informatica大数据平台可以缩短50%到80%的数据分析时间。相信我们的产品对中医也会非常有帮助。
大数据技术在中国
一般来讲,新科技的发展是从北美洲、欧洲再到亚洲这样的顺序,但对于大数据来讲完全不同。亚洲拥有非常自然的大数据问题,从人口方面就可以看,因为人口多,数据量会多,数据的复杂性也会多。比如美国最大电信运营商AT&T移动公司每天的数据处理量是500GB,而中国移动每天数据处理量达到了10TB,各种各样的大数据问题随处可见,在美国是小数据的问题,在中国就是大数据。中国的淘宝、阿里巴巴就已经处理过之前在美国从来都没有碰到过的问题。在中国有很大的大数据的机会,Informatica明年会增加中国的销售人员。Informatica非常关注中国、日本、印度这3个国家。