《企业网D1Net》8月30日讯
企业IT专业人士,包括公共CIO,早就认识到数据的力量,而大数据方法令人兴奋的新的意义建构能力更是引发大量兴奋及讨论。但是若以史为鉴,我们将会看到这个字眼失去它的意义。以下是我的看法:
你还记得服务导向型体系架构(SOA)吗?这个概念引导了大量的新能力、以及高效且聚焦于任务的设计。企业建立的架构使得应用接口、逻辑、数据各自分开并可巧妙重复利用。在这个概念走向主流之后,IT生态系统里的每个公司便都抓住了它,而且开始使用缩略词SOA来代表任何他们想要的东西。尽管它仍旧是一个对IT专业人士十分有用的构想,但涉及到与行业的互动时,这个词现在已经失去了很多意义。
然后是云计算。当企业IT专业人士业内使用这个名词时,这个概念有着巨大的价值。考虑到改变业务流程以最大化利用现代IT及其产品的需求,这个概念传达了大量的含义。但是现在,大多IT 供应商都把他们做的事描述为云计算。正如SOA,当云计算这个名词涉及到与行业的互动时,却失去了许多意义。
现在来谈大数据。今天大数据一直是个非常有益的概念。从业者,包括IT架构师、系统工程师、CIO、CTO、以及数据科学家们,都在对话中以各种方式使用这个名词来提高数据的意义建构。这个名词成为介绍其他名词的一种有效方式,包括非技术人员在内的人士在内,还用它实现诸如Apache Hadoop框架这样的新方案。我们有着持续的讨论这些话题的需要,且“大数据”这个名词和可能将会陪伴我们很久。
但是正如SOA和云计算一样,大数据现在在供应商圈子中也是一个热门话题。所有迹象表明,大多数供应商已经意识到关于这个概念正在进行着激动人心的对话。他们都已经或是转移了他们的市场策略来涵盖这个概念,或是马上就将涵盖。奇怪的是IT行业里的大多数公司都很快将要宣布自己是一个大数据公司。
我已经看过许多证据证明品牌重塑正在进行。我已经听说过许多网络交换机和路由器制造商声称他们是大数据公司,因为他们转移着大量的数据。我见过一些因为他们策划数据就想被称为大数据公司的映射公司。我知道一种老派的存储公司,由于存储许多信息而希望作为大数据公司被人认识。一家了解且喜爱的很棒的信息集成公司告诉过我,它是大数据解决方案,因为它集成数据。领先的晶片制造商将要启动一个大数据运动,因为它需要处理器来处理大量数据。
在各种情况中,厂商都在创建他们自己的大数据定义。历史将会重复。很快,你接触的每个供应商都将想要让你使用它的大数据定义。
那么,公共部门的技术人员在这样的环境中需要做些什么呢?我建议,去做企业技术人员们做的最好的:聚焦于你的使命需要;别让任何人说服你去听从他们的对于你的使命需要应怎么样满足的概念。
说到定义,你应该知道怎样阐释最能满足你的组织需要的一种。作为一个起点,我推荐维基百科上的定义,因为这个社区编辑站点获得了许多输入信息。维基上的定义如下:“大数据意味着需要一个策略来处理大量的数据。这个词也用来描述成功处理大量数据意义生成所需工具的新平台,正如阿帕奇分布式计算(Apache Hadoop)大数据平台那样。”
我喜欢这个定义是因为它聚焦于数据意义生成,这正为什么我们最初有数据的目的。我也喜欢阿帕奇分布式计算的引用,因为我知道的每个大数据解决方案都使用该框架。大数据的关键通常是分布式计算(Hadoop)而非这个框架中包括的分布式文件系统(HDFS)、数据库(HBase)、蜂房(Hive)、Cassandra和Mahout在内的其他能力。
如果你选择一个对于意义生成并不关键的定义,你同意任何IT生产商说自己是大数据公司。而且如果你在自己的定义中不提到Apache 分布计算框架,你就相当于允许每个传奇软件制造商说自己是大数据公司,即使它有的只是旧模式。现在关于大数据设计有了新东西,那就是为Apache 框架所实现的在集群计算机中分布式处理大型数据集。
不论你决定使用什么定义,我都建议你深入学习Apache 软件的能力。这个框架使海量数据的分布式平行处理能够通过价格不高的商品服务器来进行——没有厂商应该带给你一个大数据的解决方案,除非它已经利用了这个框架的强大的功能。
大数据以及圈子里怎样使用这个名词,是一个需要更多讨论的话题,而我的希望是来公共部门、地方、州、联邦级别的技术人员们能够进行更大的对话来探讨这个名词对公共部门的使命到底意味着什么。讨论这个话题可被证明对组织使命是非常积极的,且会帮助IT供应商更好地理解公共部门的需要。