如何避开数据湖中的"鳄鱼"陷阱

责任编辑:cres

作者:Adrian

2025-09-09 15:18:47

来源:企业网D1Net

原创

数据湖正在成为企业数据战略和AI驱动业务的核心引擎,它们不仅能集中存储并释放非结构化、半结构化和结构化数据的潜力,还能推动业务创新和客户体验个性化。

数据湖顾名思义就是庞大的数据存储库,它们用于容纳海量的非结构化和半结构化数据,这些数据通常未经筛选,往往存在重复,通常未解析且粒度较低(例如日志文件、系统状态记录、网站点击流数据)。随着物联网传感器的普及,以及智能体输出的不断涌入,这类数据正以前所未有的规模流入数据湖。

总体来说,数据湖被认为是一件好事,它让企业能够确保捕获所有可能在IT堆栈各个业务环节中流转的数据。对于任何一家企业的首席数据科学家来说,能在需要时调用尚未被充分利用的数据储备,无疑是一种安心。作为企业数据战略的重要举措,数据湖同样体现了数据的民主化:这是一个极深的数据池——只要穿好“救生衣”(即遵循安全与合规规范),包括业务用户在内的任何人都可以随时下水探索。

数据湖同样可以存储结构化数据,例如来自CRM系统或ERP系统的信息流,但这一角色往往较少被提及。

在当下“AI无处不在”的大环境下,企业需要实现对自身业务和客户行为的端到端可视化。数据湖帮助实现了这一目标,同时确保企业可以围绕一个集中式存储库进行运作,从而避免数据孤岛的滋生——这也是它的价值所在。

危险:深水暗涌

和几乎所有技术一样,数据湖也有“阴阳两面”。回想千禧年前(或至少上云之前),一家企业可能运行着40多个数据库。用户要访问数据,就必须掌握这40多个数据库的属性,以及对应的安全措施和流程。而在单一数据湖中,理论上只要有人拥有合适的凭据,就可能通过一个入口访问所有数据。

许多公司追求的所谓“单一视窗”战略,意在统一数据、应用和业务操作的洞察与管理,然而,同样的“单一视窗”,对入侵者来说,只需打破这一扇窗,就能进入核心数据资产。

这一现实由Perforce公司AI与SaaS产品主管Steve Karam特别强调。Perforce是一家以企业级版本控制、应用测试与生命周期管理为传统优势的DevOps平台公司。Karam在本周的一场数据分析圆桌会议上指出,水下的危险远不止如此。

“别忘了,几乎每家企业都有一个‘Sam’。他们可能在公司工作了几十年,在此期间构建了一个只有他们自己知道的数据库。现在Sam离开了,这个数据库就成了一个‘黑箱’。如果把Sam的数据库放进数据湖,后果可能非常严重。”Karam举例说,“如果Sam的数据存储包含重复的个人可识别信息(PII),而这些字段已无人追踪?这无疑成了湖底‘鳄鱼’的温床——本就破碎的流程被进一步放大。”

Karam进一步提醒,当AI介入后,情况更加复杂。相比那些能够精准编写查询、精细化处理数据的分析师,如今的AI表现出一种“贪婪无度”的胃口(他甚至创造了一个新词——datavore,数据食者),它想要吞掉所有数据,还像个“话痨”,泄露的秘密可能比醉酒节日晚宴上的健谈亲戚还要多。由此,风险格局随之急剧扩张。

回归现实:价值与风险并存

“这确实是个难题:企业各个团队依赖快速的数据访问来构建和测试软件、加快上市速度并优化战略,但数据湖本身又确实非常有用。”Karam指出。

例如,满足客户体验个性化需求,越来越需要调用细粒度数据,然而,风险同样真实存在。Karam援引市场研究结果称,大约有一半的企业报告称,他们已经在非生产环境中经历过涉及敏感数据的数据泄露或窃取事件。

解法:分层与编目

那么该如何应对?Karam认为,数据编目与分层管理是一个良好的起点,并以Microsoft提出的Medallion架构为例。

微软实际上将其称为Medallion数据湖仓架构(Data Lakehouse Architecture),它融合了数据湖与数据仓库的优势:既保留数据湖的容量与灵活性,又具备数据仓库的数据管理和事务处理能力。本质上,它是一种用于逻辑化组织数据的数据设计模式。

微软在其学习平台上解释道:

“Medallion架构定义了一系列数据层,用于表示湖仓中数据的质量。Azure Databricks推荐采用多层方法,构建企业数据产品的‘单一事实来源’,这一架构确保了数据的原子性、一致性、隔离性与持久性(ACID),数据在经过多层验证与转换后,最终以优化布局存储,以支持高效分析。”

下一步是合成,但又真实可感。

数据脱敏与合成数据

“下一步是找到一种方式,为非生产团队(这里指的是我们的软件应用开发同事)提供真实可用的数据,同时又不带来风险,这意味着要采用数据脱敏以及合成数据等技术。合成数据在真实数据不足以匹配新业务场景,或者合规要求完全禁止访问生产数据时,尤其有价值。它的生成速度快,并且特别适合大规模使用场景,例如单元测试。”Perforce的Karam解释道。

静态数据脱敏会用合成但逼真的数值替换掉敏感数据(例如个人可识别信息——还记得Sam和PII的隐患吗?),这些数值具有确定性和持久性,因此可以维持引用完整性和人口统计特征,这意味着,软件开发人员既能获得真正有用的数据,又不会冒着意外泄露客户敏感信息的风险。

一个实际例子是:银行的开发团队可以看到客户账户余额,以便发现异常、波动或其他离群点,但他们完全不知道这些余额属于哪位客户。出生日期、社会安全号、银行账号以及其他个人标识信息都会被脱敏。许多企业往往会同时采用数据脱敏和合成数据,并借助高度自动化的工具来支持,从而避免额外增加开发人员的工作负担。

风险规避:干净且合规的数据环境

“新的AI应用场景也能发挥作用。除了合成数据,AI还可以通过自然语言处理来支持自动化测试,帮助测试团队摆脱编写测试脚本和维护生产数据关系的负担。”Karam说道。

“即使一家企业已经全面投入数据湖,它仍然应该把软件开发和质量保证数据视为独立的数据环境,保持风险规避、健壮、干净、合规并且快速交付,让团队可以放心构建。数据湖本身也应为非生产团队划分独立的工作空间,保证其中的数据合规且安全,使团队能够无障碍地直接使用。这就像在湖的浅水区专门划出一块儿童泳池给非生产使用,而湖的深水区——生产部分——则严格禁止进入。”

数据湖生态中的主要玩家

数据湖领域的主要提供商包括:

• Amazon:其AWS S3简单存储服务是众多数据湖的底层技术

• Microsoft Azure:拥有Azure Data Lake及其数据湖分析服务

• Google:提供BigLake,深受希望构建基于Apache Iceberg湖仓的用户欢迎

• Snowflake:AI数据云公司

• Databricks:与Microsoft建立了密切合作关系

虽然Perforce在这次讨论中没有推销自家产品,但它在版本控制领域与Git、Atlassian Bitbucket Data Center、Apache Subversion和Mercurial等竞争,在软件测试领域与BrowserStack、Sauce Labs、LambdaTest等厂商同台竞技,而在应用生命周期管理方面,则需要面对IBM Engineering Lifecycle Management等对手。

安全下水:在风险与价值之间找到平衡

采取上述步骤与方法,有助于识别、隔离并缓解数据湖带来的风险,在保护需求与使用价值之间取得平衡。

湖里的“鳄鱼”(恶意攻击者与不怀好意之人)可能依旧徘徊,但如果我们清楚该穿什么样的“防护衣”,依旧能安全地下水,这些措施也许无法彻底消灭潜伏在湖底的鳄鱼,但至少可以迫使其中一些退回岸边。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号