企业网D1Net 2012年5月3日 数据保护往往是数据中心遗忘的部分,在大数据技术的推出上也是如此。人们通常在事后才想到数据保护,特别是和大数据有关的方面,如大数据分析。
关于大数据分析,首先,它有一个非常独特的样本集--例如,一个每30秒检测土壤样品一次的设备,一个每分钟拍摄数千张图片的相机,或记录数百万条短信的手机呼叫中心。所有这些数据都在某一时刻是独一无二的,如果失去了就不可能再重现。
这种独特性也意味着数据是不可能重复删除的。正如我在最近的一篇文章中所讨论的那样,你可能需要停止重复删除,或者,在这样的环境下重复数据删除的效率非常低。这意味着,相比你可能利用高效的重复数据删除技术进行计算的其他备份情况,备份设备的容量可能要更接近真实数据集。而更大的数据集,意味着更大的遵约挑战。
大数据的黑暗面:数据归档、保存与备份。
使大量文件可以在大数据分析环境下得以保存也是一个挑战。为了备份应用程序和设备,企业处理了大量这样的文件。备份服务器和备份设备需要很大的带宽,接收设备必须在数据可以交付使用的情况下摄取数据。他们还需要大量功能强大的CPU来处理这数十亿文件。
还有一个需要考虑的因素是大数据的数据库组件。分析信息通常被加工成一个Oracle或Hadoop环境下的某些东西,所以这种环境保护可能是需要的。这意味着少量的大文件需要进行备份。
这是一个情况最糟糕时的高性能混合工作负载器:数十亿小文件,和与小文件相比较少的大文件,可能打破许多备份设备的限制,找到一个全速运行的、使用重复数据删除技术、不会影响性能,并可以扩展可能是大数据备份市场最大挑战的容量的配置,来摄取混合工作负载数据。你可能会考虑磁带,如果是这样,磁盘备份厂商就需要知道如何使用它。
大数据的其他形式,大数据归档,如果被正确设计的话,应该是一个需要讨论的问题。如果设计使用磁带作为归档文件的一部分,那么备份就可以成为工作流的一部分。为大数据归档环境设计存储基础设施,将是未来的主要课题。