大数据概念及应用未来

责任编辑：editor006 |来源：企业网D1Net 2014-09-23 17:36:52 本文摘自：科技讯

麦肯锡是最早提出大数据时代已经到来：“各个行业和领域都已经被数据给渗透了，目前数据已成为非常重要的生产因素了。对于大数据的处理和挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来。”大数据概念最早是IBM定义的，将大数据的特征归纳为4个“V”(量Volume，多样Variety，价值Value，速Velocity)，或者说特点有四个层面：第一，数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二，数据类型繁多。比如，网络日志、视频、图片、地理位置信息等等。第三，价值密度低，商业价值高。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

全世界每天都有几十亿人使用计算机、平板电脑、手机和其它数字设备产生海量数据。据Forrester的最新研究显示：在线或移动金融交易、社交媒体、GPS坐标等数据源每天要产生超过2.5X1018的所谓“大数据”。今后几年，数据的增长速度将超越摩尔定律。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据正成为赢得竞争的关键。

哪些传统企业最需要大数据服务呢?抛砖引玉，先举几个例子：1)对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据，还有一种预测：随着数据逐渐成为企业的一种资产，数据产业会向传统企业的供应链模式发展，最终形成“数据供应链”。这里尤其有两个明显的现象：1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代，单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2)能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

大数据中的软件技术

大数据技术描述了新一代技术和架构，目的是通过高速捕获、发现和/或分析，经济高效地从种类繁多的大量数据中获益。

目前共有两种顶层分析方法：

1). 分析过去，不预测未来(关联分析)

2). 分析过去，预测未来(具备监督式学习功能的预测分析)。

目前共有三种顶层的软件技术分类：

1) 流数据分析和复杂事件处理

结构化数据从多个来源持续流出，以便对它们进行“线速”分析和关联，而不是首先将它们存储在某个数据库中。ApacheStorm和IBMInfoSphereStreams等某些解决方案提供“表述编程设计”(declarative programming)框架，让数据经历转换、加入、分割、开窗等一系列处理步骤。这种模式通常被称为“复杂事件处理”(Complex Event Processing)。

流数据分析的结果通常被存储在一个数据库(SQL或NoSQL)中，并能触发其它事件。单位时间(例如1小时)内所处理的数据量通常以吉字节为单位，处理时延以毫秒为单位。关联分析和预测分析均能以线速运行，但预测分析中通常仅评分部分以线速运行。流数据分析的范例包括股票预测、自动交易引擎、 M2M/传感器分析等。

2) 数据库

目前主要有两类数据库，即SQL和NoSQL。SQL数据库向RDBMS确认(即提供事务处理和引用完整性)。NoSQL数据库提供各种表、 schema和接口，但不提供事务处理和引用完整性，与SQL数据库相比，它们的时延更小，吞吐量更大，数据存储容量也更大。两种数据库均用于管理结构化数据。NoSQL数据库既可以基于磁盘，也可以基于内存。内存数据库以牺牲较大的磁盘容量来换取更小的内存时延。

3) Hadoop

流数据分析和数据库用于处理结构化数据，而Hadoop用于分析Web浏览日志、IT系统日志等半结构化数据以及社交网络、Twitterfeed、图像、音频文件等非结构化数据。

为了分析数据，Hadoop软件在计算机集群上运行一系列“MapReduce”任务。给定计算机上的每一个Map任务负责在给定时间处理某个数据子集;给定计算机上的每一个Reduce任务负责编译在预定义的计算机集群子集上运行的一组预定义的Map任务所产生的处理后的数据。下图显示了 MapReduce任务的迭代过程。

数据和结果与分布式计算机集群中的每台计算机上的MapReduce任务共址。这些集体数据构成了一个Hadoop分布式文件系统(HDFS)。任何一个HadoopDistribution必须至少包含Hadoop集群软件和HDFS

SQL的重新兴起：

很多传媒大肆宣扬NoSQL是兼容RDBMS的SQL数据库的“终结者”。但是，RDBMS可确保数据完整性，而这对于很多应用至关重要。因此，业内将来有可能搭建性能媲美当今NoSQL数据库的RDBMS数据库。

Hadoop2.0：

Hadoop将来有可能更多地被视为支持大型NoSQL数据库的一个平台，而不仅仅是一个批量分析引擎。在增添了流处理能力后(始于 ApacheStorm)，Hadoop也有可能用于实时分析。大多数大数据厂商依赖于Hadoop的未来成功，因此，我们可能会看到在此方面的投入(如与Hadoop的RESTful接口，集成Node.js等)。

6. 结语

大数据要求各个行业采用一种完全不同的非传统方法来拓展业务。然而，并不是所有企业都具备优秀的数据整合分析能力，所以需要借助外力获取数据优势，譬如，联合专业从事互联网大数据分析的软件企业，如蚁坊软件，它拥有自主品牌的大数据处理平台：蚂蚁工厂（Antfact ），并专注于大数据信息挖掘的价值传递。这样，就将获得真正的数据竞争优势，从而战胜行动较为迟缓的对手。

关键字：精准营销迭代过程 RESTful