重建AI就绪型数据战略的八大要点

责任编辑：cres

作者：Mary

2025-12-16 11:11:07

来源：企业网D1Net

原创

专家建议企业重塑数据所有权、打破数据孤岛、投资现代数据技术、实现自动化、确保结构化与非结构化数据AI就绪，并逐步推进数据成熟度，构建跨职能团队协同支持，以实现价值导向的AI战略。

任何想要拥有领先AI战略的企业，都必须首先制定一套成功的数据战略，这是IBM副总裁兼首席数据官Ed Lovely传达的信息。“当你考虑扩展AI规模时，数据是基础。”他说道。

然而，他表示，很少有企业的数据架构与其AI雄心相匹配，相反，他们拥有的是孤立的数据，且这些数据不受统一数据标准的约束——这是长期以来的企业数据战略所导致的，这些战略逐个应用构建IT环境，以支持即时决策，而非支持企业级AI部署。

IBM 2025年的研究报告《AI雄心激增，但企业数据准备好了吗?》揭示了有多少企业在数据方面举步维艰，该研究发现，在全球1700名首席数据官(CDO)中，只有26%的人对其数据能够支持新的AI赋能收入流充满信心。

Lovely表示，需要的是一种集成式企业数据架构，无论数据源自何处，都应用统一的标准、治理和元数据。

认为企业需要更新其数据战略的，不止Lovely一人。

IDC全球数据圈和全球存储圈研究项目研究经理、《生成式AI时代的内容创作》2025年报告的联合作者Adam Wright表示：“大多数企业需要对其数据战略进行现代化改造，因为AI不仅改变了数据的使用方式，还改变了使用原因以及价值创造地点。”

“传统数据战略是为报告、商业智能和自动化而构建的，但AI需要更加动态、精细和实时的数据管道，以支持迭代、模型驱动的工作流程，这意味着要从静态数据治理转向持续数据质量监控、更强的元数据和血缘追踪，以及反映AI对临时性、缓存和保存数据混合需求的保留策略，”他说道，“AI时代要求企业从‘收集/存储一切’的心态，转变为有意识、以价值为导向的数据战略，平衡成本、风险和他们想要实现的具体AI成果。”

高成熟度的数据基础

大多数企业离这一目标还相差甚远。

“许多企业在获取‘正确’数据方面仍面临困难，无论是数据量不足、质量不佳，还是缺乏支持AI应用场景所需的上下文元数据，”Wright说道，“在IDC的研究和行业对话中，数据准备程度始终是实现AI价值的首要障碍之一，其重要性往往超过计算成本或模型选择。大多数企业仍在应对碎片化系统、不一致的治理，以及对其实际拥有哪些数据及其可信度缺乏可见性的问题。”

Lovely表示，IBM曾面临诸多此类挑战，但过去三年一直在努力解决这些问题，以使其数据具备AI就绪能力。

IBM为AI时代制定的数据战略包括对长期做法的多次变革，使其能够构建Lovely所称的集成式企业数据架构。例如，公司保留了数据所有者的概念，但“帮助他们理解数据是IBM的资产，如果我们能够以可控、安全的方式实现数据民主化，我们就能以更好、更高效的方式运营业务。”Lovely说道。

因此，IBM从多个团队管理孤立数据转变为一个共同团队使用共同标准和共同架构。企业领导者还整合了300太字节的数据，根据公司追求的成果和驱动这些成果的工作流程来选择所需数据。

“我们是有意为之，”Lovely补充道，其数据平台现在覆盖了约80%的IBM工作流程，“对于当今的企业而言，最大的生产力提升之一就是创建集成式企业数据架构。由于我们在数据方面的投资，我们正在公司内部迅速部署AI。”

构建更好数据战略的8个建议

为了在数据基础和数据消费能力方面达到高成熟度，企业需要为AI时代制定一套数据战略——一套能够确保数据质量、打破数据孤岛，并使数据能力与业务优先的AI应用场景相匹配的战略。

专家提出了以下步骤：

1. 重新思考数据所有权

“当业务部门、产品团队和AI平台都在持续生成和转换数据时，将数据所有权视为纯粹的IT问题的传统模式已不再适用，”Wright解释道，“理想情况下，明确的问责制应由高级数据领导者(如CDO)承担，但那些没有CDO的企业必须确保数据治理责任在IT、安全和业务部门之间明确分配。”

他补充道，拥有“一个定义政策的单一权威点和执行的联邦模型至关重要，这样业务部门才能保持自主权，但又不至于不受约束。”

圣托马斯大学软件工程与数据科学系教授兼系主任、应用AI中心主任Manjeet Rege建议企业将数据所有者重新定义为数据管理员，他们不拥有数据，而是根据中央数据功能设定的标准、治理、安全和互操作性，对数据的意义和质量负责。

2. 打破数据孤岛

Wright表示：“要做到这一点，CIO需要围绕共享的AI和数据成果来协调业务部门，因为生成式AI只有在整个企业的流程、流程和数据源都连接起来时才能创造价值。”

“这意味着要建立跨职能的治理、标准化分类和政策，并创建激励团队共享数据而非保护数据的机制，”他补充道，“技术通过统一平台、元数据层和共同安全框架提供帮助，但真正的突破来自整个高管层和业务利益相关者的协调领导。”

3. 投资AI时代的数据技术

这些技术包括现代数据湖和数据湖仓、向量数据库和可扩展的对象存储，所有这些“都能以强大的治理能力处理高容量、多模态数据。”Wright说道。

企业还需要编排和管道工具，以自动化数据摄取、清洗、转换和移动，使AI工作流程能够端到端可靠运行。元数据引擎和治理层对于使模型能够理解上下文、追踪血缘，以及安全可靠地使用结构化和非结构化数据至关重要。

Rege建议构建一个“模块化、可治理且能够演进”的数据平台层。“你需要一种能够将数据视为可重用产品的架构，而不仅仅是为了单一管道，并且能够同时满足批量和实时需求。”

Rege还认可数据湖和数据湖仓，称它们“正成为AI的支柱，因为它们能够处理结构化和非结构化数据。”

此外，Thoughtworks首席AI与数据官Shayan Mohanty建议CIO构建一个可组合的企业，采用模块化技术和灵活架构，使人类和AI能够跨多个层级访问数据并开展工作。

专家还建议CIO投资于能够满足新兴数据生命周期需求的技术。

“生成式AI正在从根本上重塑数据生命周期，创造出一种更加动态的临时性、缓存和持久存储内容的混合体。大多数生成式AI输出都是短暂的，仅使用几秒、几分钟或几小时，这增加了对高性能基础设施(如DRAM和SSD)的需求，以处理快速迭代、缓存和易失性工作流程。”Wright说道。

“但与此同时，也有相当一部分生成式AI输出是持久性的，如最终文档、批准的媒体资产、合成训练数据集和合规相关内容，这些仍然严重依赖成本效益高、容量大的HDD进行长期存储，”他补充道，“随着生成式AI的采用增加，企业将需要数据战略来适应从用于临时内容的超高速内存到用于持久存档的强大HDD基础系统的整个生命周期，因为存储负担/动态正在发生变化。”

4. 实现数据架构自动化并增添智能

Mohanty将企业数据状态不佳归咎于“数据生产者和数据消费者之间的鸿沟”，数据被生产出来后被“扔进某个巨大的仓库(即所谓的数据仓库)”，然后创建分析层来利用这些数据。他指出，这种方法需要大量的人类知识和手动努力才能使其发挥作用。

他建议企业采用数据产品思维，“使数据生产者和数据消费者更加紧密”，并在其企业架构中添加自动化和智能，以便AI在需要时能够识别和访问正确的数据。

Mohanty表示，CIO可以使用模型上下文协议(Model Context Protocol，MCP)来封装数据并提供协议级访问，他指出，这种访问要求企业在其目录和工具中编码信息，以确保数据可发现性。

5. 确保结构化和非结构化数据均具备AI就绪能力

“当结构化数据格式一致、治理良好，并辅以准确的元数据时，它就具备了AI就绪能力，使模型能够轻松理解和使用，”Wright说道，“企业应优先考虑强大的数据质量控制、主数据管理和明确的所有权，以确保结构化数据集保持可靠、可互操作，并与特定AI应用场景保持一致。”

专家强调，需要对非结构化数据采取同样的严格管理，确保非结构化数据也得到适当标记、分类，并辅以元数据，以便AI系统能够有效理解和检索。

“你需要将非结构化数据视为第一类数据资产，”Rege说道，“大多数最有趣的AI应用场景都存在于非结构化数据中，如客户服务音频通话、消息和文档，但对于许多企业而言，非结构化数据仍然是一个盲点。”

Rege建议将其存储在向量数据库中，以便信息可搜索。

6. 考虑外部数据源和合成数据

“当企业现有数据不完整、有偏差、规模太小或与他们试图追求的AI应用场景不匹配时，他们绝对应该评估是否需要外部或合成数据，”Wright说道，他指出，“当真实数据敏感、收集成本高昂，或受到隐私、监管或运营限制时，合成数据变得尤其有用。”

7. 逐步实施高成熟度数据基础