随着大数据在企业中的应用逐渐深入,企业在构建大数据服务平台的时候只是关注数据中心、机房、服务器等硬件设备的性能这些参数,其实大数据在企业当中的应用时非常广泛的,大数据应用程序需要处理大规模信息,而且在出于弹性的考虑将数据复制到多个位置时,信息的规模变得越来越大。
这就需要企业在构建大数据网络和服务平台的时候,需要将大数据的不同属性规模进行划分和归类,并将大数据应用分割成很多个小的“作业模式”进行信息的处理工作。
大数据应用需要“弹性”
如果有一组分布式资源必须通过互联网络进行协调时,可用性就变得至关重要。如果网络出现故障,那么造成的后果是出现不连续的坏计算资源与数据集。
大多数网络架构和工程师的主要关注点是正常运行时间。但是,网络故障时间的根源又各不相同。大量数据都会有一个数据源,这些所谓的数据源就是来源于不同的结构层,数据之间进行协作和应用,当中出现差错是肯定避免不了的。
上面这类问题就需要企业的IT管理部门设计一套能适应故障的弹性网络,并以此来保障大数据服务和管理平台的安全平稳运行,除了传统的平均故障时间间隔方法,大数据网络的真正设计标准一定要包含上述的弹性特质。
大数据拥塞问题要解决
大数据应用程序不仅仅是规模大,而且还有一种我称为突发性的特性。当一个作业启动之后,数据就开始流转。在高流量时间段里,拥塞是一个严重的问题。
因此,网络架构设计时应该尽可能减少拥塞点。按照可用性的设计标准,减少拥塞要求网络具有较高的路径多样性,这样才能允许网络将流量分散到大量不同的路径上。
数据一致性比延迟更重要
根据很多项测试可以发现,绝大多数的大数据应用其实延迟并不大,如果计算时间的数量级为几秒钟或几分钟,那么即使网络上出现较大延迟也是无所谓的。
大数据应用程序一般具有较高的同步性。这意味着作业是并行执行的,而各个作业之间较大的性能差异可能会引发应用程序的故障。因此,网络不仅要足够高效,而且要在空间和时间上具有一致的性能。
网络分割是解决大数据难题的有效途径
我们前文说了,将不同数据源的大数据模型进行分割,并将这些小型的数据源分批进行处理,这样一来就解决了企业大数据平台管理难的问题了。在最简单的形式上,分割可能意味着要将大数据流量与其他网络流量分离,这样应用程序产生的突发流量也不会影响其他关键任务工作负载。
同时,企业还需要在一些场合当中及你选哪个网络负载的逻辑分离或者物理分离,因为这种分离能够让企业的IT架构师们轻松对企业的大数据服务平台进行更好的划分。
D1Net评论:
企业在运用大数据平台时,必须要关注以上几个点,除此之外,企业要让IT架构师对自身的大数据服务平台进行划分,细化大数据的应用价值,只有这样,才能将大数据价值发挥到最大化。