如果大数据是原油，那么数据虚拟化就是炼油厂

责任编辑：cres 作者：Lakshmi Randall 译者：HERO |来源：企业网D1Net 2017-07-27 10:23:23 原创文章企业网D1Net

大数据就像是一个从现代数据景观中涌现出来的丰富的自然资源。物联网(传感器)，移动设备，社交网络，点击流，网络和开放数据是人们今天目睹的数据激增的重要因素。根据调研机构IDC和硬盘厂商Seagate公司最近合作进行的一项研究显示，到2025年，全球数据预计将增长十倍，将达到163 ZB。

数据丰富，但不一定有用，因为其是以原始，没有提炼的形式存在。与任何自然资源一样，“粗”数据必须先进行细化，才能用于生产目的，如设备维护，产品创新，竞争情报，市场营销，数据货币化，以及积极的医疗保健。其细化过程可以纳入数据探索，准备，关联和背景化，标注和注释，统一和整合，以及安全和治理政策的应用。元数据也是一个重要的组成部分，因为它在整体数据细化过程的输入和输出阶段起着重要的作用。

数据分析有助于得出无偏见的结论、准确的预测和有见地的决策，这取决于数据的准确性。如果尚未提供分析资料，数据可能会受到碎片，标签和信息丢失的困扰。这些特征在电子健康记录(EHR)中是显而易见的，它们说明了数据精华的挑战。收集和分析EHR数据的障碍是缺乏适当标签和一致语义。

电子健康记录(EHR)主要旨在满足患者护理，行政和财务需求。目前尚未考虑数据分析的EHRs的多用途目标可能会造成数据碎片化，需要在将数据提供给临床研究之前进行分析。

从共享患者健康记录中构建数据集的另一个挑战是，如何在保健机构之间甚至在同一个保健系统内部共享电子病历。例如，同一所医院的不同部门(例如放射科，整形外科医师和内科医生)可以使用不同的EHR来满足其独特的数据输入要求，文档和订购需求，以及偏好，从而创建数据孤岛。

数据安全和隐私也可能是分析监管数据的障碍，例如电子健康记录(EHR)中的数据。克服这一障碍的最佳方法是在精炼过程中应用适当的安全和治理措施。谷歌等公司正在尝试联合学习，努力提高分析能力，同时确保人们的隐私安全。

数据细化对于从数据分析中获得可靠的结果是至关重要的，包括有意义的结论，准确的预测和明智的决策。在理想情况下，精炼原始数据以产生完整和有意义的信息的过程如下：

•建立相关语义

•处理数据异常

•建立完整，全面的数据视角

•丰富下游流程的元数据

•处理数据保护，隐私和合规要求

数据虚拟化作为数据精炼厂有以下三大优势：

(1)炼油厂规模

现代分析依赖于无数分散的数据源的数据。经验告诉人们，当数据分布在多个系统时，大数据源并不总是能够复制和重新定位。数据虚拟化提供了大规模的数据源，通过提供替代范例：将数据处理移至数据。换句话说，处理其驻留的数据，并最大限度地减少网络流量。

数据虚拟化带来数据精化所需的速度和规模，无需复制或重新配置数据源。它使用逻辑数据架构，使所有底层数据源显示为单个系统。它提供多种优化策略(例如，特定于平台的优化和下推处理)，智能选择一个特定的优化，以及诸如MPP内存中处理的预构建优化库。

(2)负责任的数据共享

①数据隐私设计

由于文化和法律障碍，往往阻碍数据共享，而数据共享已成为大数据分析的主要组成部分。数据隐私法规是令人信服的组织在新项目的每个设计和实施阶段，都要纳入或以其他方式充分考虑数据隐私的。数据虚拟化采用一种中心的方式，降低了遵从日益增多的主动数据隐私规则的成本，并允许通过设计包含数据隐私。

数据虚拟化的核心功能是使分布式数据保持在源头，同时通过单一逻辑层将其暴露给消费者。这种方法不需要持续的数据复制。更少的复制就可以减少组织对个人和敏感数据的拷贝，减少数据安全和治理的问题。

数据虚拟化还使组织能够轻松创建来自整个组织的数据(例如风险数据)的聚合一致的视图。如图1所示，这些视图可以有选择地共享，同时完全遵守组织的数据访问和隐私策略。

图1坚持数据访问和隐私政策

②克服信息共享的挑战

数据虚拟化克服了以下主要的信息共享挑战：

•不同的数据源。使用数据虚拟化，数据可以快速轻松地集成到无数的内部和外部系统中。

•不同的数据格式。数据虚拟化可以使用不同的技术和协议连接到不同格式的数据。这些复杂性被用户和应用程序所隐藏。

•不同的数据标准。使用查找表或内存映射，数据虚拟化可以集成数据，即使它来自不同的标准。

•不完整的数据。数据虚拟化允许将数据汇集在一起，以实现整体的视图。

•未处理的数据。对聚合数据执行的数据计算(与局部孤立的数据相反)可以提供整个组织的风险的完整视图。

•敏感数据。数据虚拟化提供安全和隐私功能，以便用户只看到允许查看的数据。

(3)通用语义模型

业务用户的规模各不相同。了解他们是谁(例如数据分析师，电力用户，管理人员或机器)及其所需的数据(例如，预先聚合，预先计算，特定粒度，角色特定或域特定)是必须的。对于特定的机器，正确标记的数据集对于有效的机器学习是至关重要的。在为分析提供数据时，使用业务用户理解的语言也是很重要的。例如账户对于财务中的用户是合适的，而客户则是客户关心的用户的首选项。它支持多个语义，避免强迫用户改变术语本质。