当前位置:大数据业界动态 → 正文

浅谈大数据

责任编辑:editor004 |来源:企业网D1Net  2015-04-30 13:32:32 本文摘自:中国大数据

大数据

  大数据概述

一、大数据是什么?

大数据目前没有一个严格的定义,但是我们可以举出很多具体的例子!例如:互联网上的网页数据、社交网站上的用户交互数据(如新浪微博)、物联网中产生的活动数据(如智能家居)、电话网络中的话单数据(如移动语音详单)等等都是大数据的具体表现。

二、大数据的三个特征

1、数据量大小–大容量

我们现在常说大数据,到底有多大呢?先看一组公式:

1024GB = 1TB;1024TB = 1PB;1024PB=1EB;1024EB=1ZB;1024ZB=1YB。

在淘宝上,每天新增的数据量大约有50TB,1年累计下来大约18PB。

与淘宝相对地,自人类开始记录历史以来,到现在为止全人类全部的印刷书本文字加起来大约50PB。

也就是说,仅淘宝3年的新增数据,就超过了全人类全部书本的数据量!

所以,大数据的第一个特征就是大容量!大到什么地步呢?远超于以前人类文明史全部书本的总数据量!

而且,不仅仅是容量大,而且增长速度也是越来越快的!

2、数据类型–多类型

大数据并不仅仅强调数据量的大小,还关系到数据类型的变化!

数据类型简单的可以分为结构化数据和非结构化数据。

在大数据出现的初期,数据基本都是以结构化的形式存储在数据库。

但是随着大数据的蓬勃发展,目前已经超过80%的数据是以非结构的形式存在的!并且非结构化的数据增长速度远远超过结构化数据。

所以,大数据的高速发展让数据从结构化形式快速地转向了非结构化,非结构化数据已经是占统治地位的数据。

正是非结构化数据的迅速增长,促进了现代数据处理技术从算法到架构的全方位变革,也就是下面即将提到的MapReduce计算模式。

3、数据时效性–高时效

在传统的数据分析或商业智能中,数据处理的工作重点更对地是放在对历史数据的分析和挖掘。例如,客户关系管理(BI),企业资源规划(ERP),几乎所有分析报表的产生都是以过去若干周或若干月的数据为基准产生,然后提交给企业管理者,以便他们做出决策。

但是在大数据时代,企业或组织必须具有实时分析所拥有的最新数据,并具备挖掘出有价值的信息的能力,才能产生对决策者有意义的分析结果。例如,搜索引擎如百度需要将几分钟前上线的新闻快速归并到检索索引中。因为,如果一个搜索引擎不能及时建立搜索结果,用户必将流失到时效性更高的其他搜索引擎中。电子商务网站如京东必须在当天分析用户的购买行为并预测第二天的货物短缺状况,如果不能达到这样的处理速度,第二天的缺货状况必将引来不可估量的用户流失和收入损失。地质管理机构必须在地震发生后的几分钟内发布海啸或其他灾害的预警,如果做不到及时发布,后果非常严重!

三、大数据的三大关键要素

1、存储

1 提升系统容量

传统地方式是通过提高硬盘性能,来满足直连式存储的需求。

但是这种方式根本不能满足大数据的要求。大数据采用的是网络接入存储,也就是云存储。现在常用的是HDFS架构存储大数据。

2 提升系统吞吐量

对单个硬盘,提升吞吐量的主要方法是提高硬盘转速、改进磁盘接口形式或增加读写缓存等。而提升数据存储系统的整体吞吐量,比较典型的技术是早期的专用数据库机体系。

数据库机具体实现架构按特点可以分为三类:每磁道专用处理架构(PPT)、每磁头专用处理器架构(PPH)、多处理器缓存架构(MPC)。

2、计算

1 多处理技术

提高计算节点的性能有两个途径,一方面是增加单处理器的计算能力;另一方面是增加处理器的数量。

2 并行计算

并行计算是指在具有并行处理能力的计算节点上,将一个计算任务分解成多个并行子任务,并分配给不同的处理器,各个处理器之间相互协同,并行执行子任务,从而达到加速计算速度或提升计算规模的目的。

3、容错

1 数据存储容错

目前主要的数据存储容错技术包括以下3类。

(1)磁盘镜像和磁盘双工。(例如磁盘镜像,操作系统备份还原)

磁盘镜像是使用1个通道控制主盘和从盘(从盘就是镜像盘),而磁盘双工是使用两个通道控制两个磁盘。

(2)基于RAID的磁盘容错

RAID就是冗余磁盘阵列,这个技术的基本原理就是采用多块便宜的磁盘组合成一个容量巨大的磁盘阵列。RAID技术常见的等级有RAID0~RAID5这几个等级。

(3)基于集群的数据容错

集群容错的基本思想是将一份数据在集群中的不同节点进行冗余存储,确保部分节点的故障不会导致系统整体的正常运行。(例如百度云盘)

2 计算任务容错

(1)失效节点检测

心跳机制是目前在集群环境中进行失效节点检测使用最为广泛的技术,起基本思想是在网络中各节点定期互相发送报文来通知对方自己的当前状态。

(2)计算任务迁移

计算任务迁移就是将一个计算任务从当前节点移动其他指定节点。

(3)数据定位与获取

在集群数据容错机制中,会对数据在多个节点进行冗余备份,所以必须解决任务迁移时新的任务节点对计算任务所需的数据进行定位和获取的问题。

 

原文链接:http://www.thebigdata.cn/YeJieDongTai/14138.html

关键字:PPH硬盘转速HDFS

本文摘自:中国大数据

x 浅谈大数据 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

浅谈大数据

责任编辑:editor004 |来源:企业网D1Net  2015-04-30 13:32:32 本文摘自:中国大数据

大数据

  大数据概述

一、大数据是什么?

大数据目前没有一个严格的定义,但是我们可以举出很多具体的例子!例如:互联网上的网页数据、社交网站上的用户交互数据(如新浪微博)、物联网中产生的活动数据(如智能家居)、电话网络中的话单数据(如移动语音详单)等等都是大数据的具体表现。

二、大数据的三个特征

1、数据量大小–大容量

我们现在常说大数据,到底有多大呢?先看一组公式:

1024GB = 1TB;1024TB = 1PB;1024PB=1EB;1024EB=1ZB;1024ZB=1YB。

在淘宝上,每天新增的数据量大约有50TB,1年累计下来大约18PB。

与淘宝相对地,自人类开始记录历史以来,到现在为止全人类全部的印刷书本文字加起来大约50PB。

也就是说,仅淘宝3年的新增数据,就超过了全人类全部书本的数据量!

所以,大数据的第一个特征就是大容量!大到什么地步呢?远超于以前人类文明史全部书本的总数据量!

而且,不仅仅是容量大,而且增长速度也是越来越快的!

2、数据类型–多类型

大数据并不仅仅强调数据量的大小,还关系到数据类型的变化!

数据类型简单的可以分为结构化数据和非结构化数据。

在大数据出现的初期,数据基本都是以结构化的形式存储在数据库。

但是随着大数据的蓬勃发展,目前已经超过80%的数据是以非结构的形式存在的!并且非结构化的数据增长速度远远超过结构化数据。

所以,大数据的高速发展让数据从结构化形式快速地转向了非结构化,非结构化数据已经是占统治地位的数据。

正是非结构化数据的迅速增长,促进了现代数据处理技术从算法到架构的全方位变革,也就是下面即将提到的MapReduce计算模式。

3、数据时效性–高时效

在传统的数据分析或商业智能中,数据处理的工作重点更对地是放在对历史数据的分析和挖掘。例如,客户关系管理(BI),企业资源规划(ERP),几乎所有分析报表的产生都是以过去若干周或若干月的数据为基准产生,然后提交给企业管理者,以便他们做出决策。

但是在大数据时代,企业或组织必须具有实时分析所拥有的最新数据,并具备挖掘出有价值的信息的能力,才能产生对决策者有意义的分析结果。例如,搜索引擎如百度需要将几分钟前上线的新闻快速归并到检索索引中。因为,如果一个搜索引擎不能及时建立搜索结果,用户必将流失到时效性更高的其他搜索引擎中。电子商务网站如京东必须在当天分析用户的购买行为并预测第二天的货物短缺状况,如果不能达到这样的处理速度,第二天的缺货状况必将引来不可估量的用户流失和收入损失。地质管理机构必须在地震发生后的几分钟内发布海啸或其他灾害的预警,如果做不到及时发布,后果非常严重!

三、大数据的三大关键要素

1、存储

1 提升系统容量

传统地方式是通过提高硬盘性能,来满足直连式存储的需求。

但是这种方式根本不能满足大数据的要求。大数据采用的是网络接入存储,也就是云存储。现在常用的是HDFS架构存储大数据。

2 提升系统吞吐量

对单个硬盘,提升吞吐量的主要方法是提高硬盘转速、改进磁盘接口形式或增加读写缓存等。而提升数据存储系统的整体吞吐量,比较典型的技术是早期的专用数据库机体系。

数据库机具体实现架构按特点可以分为三类:每磁道专用处理架构(PPT)、每磁头专用处理器架构(PPH)、多处理器缓存架构(MPC)。

2、计算

1 多处理技术

提高计算节点的性能有两个途径,一方面是增加单处理器的计算能力;另一方面是增加处理器的数量。

2 并行计算

并行计算是指在具有并行处理能力的计算节点上,将一个计算任务分解成多个并行子任务,并分配给不同的处理器,各个处理器之间相互协同,并行执行子任务,从而达到加速计算速度或提升计算规模的目的。

3、容错

1 数据存储容错

目前主要的数据存储容错技术包括以下3类。

(1)磁盘镜像和磁盘双工。(例如磁盘镜像,操作系统备份还原)

磁盘镜像是使用1个通道控制主盘和从盘(从盘就是镜像盘),而磁盘双工是使用两个通道控制两个磁盘。

(2)基于RAID的磁盘容错

RAID就是冗余磁盘阵列,这个技术的基本原理就是采用多块便宜的磁盘组合成一个容量巨大的磁盘阵列。RAID技术常见的等级有RAID0~RAID5这几个等级。

(3)基于集群的数据容错

集群容错的基本思想是将一份数据在集群中的不同节点进行冗余存储,确保部分节点的故障不会导致系统整体的正常运行。(例如百度云盘)

2 计算任务容错

(1)失效节点检测

心跳机制是目前在集群环境中进行失效节点检测使用最为广泛的技术,起基本思想是在网络中各节点定期互相发送报文来通知对方自己的当前状态。

(2)计算任务迁移

计算任务迁移就是将一个计算任务从当前节点移动其他指定节点。

(3)数据定位与获取

在集群数据容错机制中,会对数据在多个节点进行冗余备份,所以必须解决任务迁移时新的任务节点对计算任务所需的数据进行定位和获取的问题。

 

原文链接:http://www.thebigdata.cn/YeJieDongTai/14138.html

关键字:PPH硬盘转速HDFS

本文摘自:中国大数据

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^