CIO如何为AI优化数据管理

责任编辑:cres

作者:Stan Gibson

2025-06-17 14:18:45

来源:企业网D1Net

原创

糟糕的数据总是会产生糟糕的结果,对于AI来说,风险尤其高,因为不良数据可能导致严重的财务损失、监管罚款和声誉损害。如果数据质量高,能够推动计划成功,那么它可能会带来显著且可能改变游戏规则的战略优势。

一项成功的AI计划在很大程度上取决于底层数据的质量,IT领导者们正在提升他们的数据湖、数据仓库和数据湖仓策略,以提供坚实的基础。

优质数据对于任何IT计划的成功都至关重要,对于AI项目来说更是如此。糟糕的数据总是会产生糟糕的结果,对于AI来说,风险尤其高,因为不良数据可能导致严重的财务损失、监管罚款和声誉损害。如果数据质量高,能够推动计划成功,那么它可能会带来显著且可能改变游戏规则的战略优势。

“在AI的世界里,是‘垃圾进,垃圾出’”无线网络半导体制造商Skyworks Solutions的副总裁兼CIO Satya Jayadev说,“任何好的AI系统的秘诀都在于你如何构建数据层,重要的是构建架构和基础设施——理解数据来源、生成数据,并构建一个统一的数据平台。”Jayadev说。

对于Jayadev和其他人来说,这意味着要加大对数据湖、数据仓库或数据湖仓实现的投入,将其作为AI的单一真实来源,无论是传统机器学习、GenAI还是自主式AI。

十多年前,当大数据开始崭露头角时,数据湖应运而生,以容纳非结构化数据作为分析洞察的来源。数据湖仓(有时称为查询加速器)包含像数据湖一样的非结构化数据,但增加了像数据仓库一样的结构层,以更快、更经济地提供洞察。

CIO们正在采用这些和其他数据技术,以确保数据管道的稳健性,并达到实现AI战略变革价值所需的数据质量水平。

更好的数据=更好的AI

那些已经采取措施更好地组织数据的企业更有可能具备数据成熟度,这是成功应用AI的公司的关键属性。研究公司IDC将数据成熟度定义为使用先进的数据质量、目录编制和元数据以及数据治理流程,该公司的首席数据官办公室调查发现,具备数据成熟度的公司远比其他组织更有可能在生产环境中部署GenAI解决方案。

“企业正在优先考虑数据质量,以提高数据工作者的工作效率,并增强AI生成结果的准确性和相关性。”IDC的数据智能和集成软件服务副总裁Stewart Bond说。

此外,IDC的同一项研究还揭示,准备数据以产生最佳的AI结果对业务有显著的底线效应,能够带来客户保留率五倍的提升,以及在利润、效率和收入方面的强劲增长。

对于Skyworks Solutions的Jayadev来说,使用Databricks技术构建的数据湖仓是数据质量工作的重点。

“数据湖仓在某种程度上就像摩天大楼的基础,我们收集每一份数据,然后进行分类和分组,以构建铜质、银质和金质的数据质量层,”这位副总裁兼CIO解释道,“我们在数据湖仓中存储了PB级的数据,每天还有TB级的数据从我们的工厂和其他来源流入。”

Gallo收获经典数据

Jayadev和Skyworks Solutions并非孤例,葡萄酒和其他饮料巨头Gallo已经实施了数据仓库和数据湖仓,以从中获取AI洞察,其CIO Robert Barrios说。该公司已经构建了一个SAP S/4HANA数据仓库,该仓库被划分为消费者、财务和采购数据的独立数据集市。此外,Gallo还为非SAP数据实施了一个AWS Redshift数据湖仓,并应用元数据来赋予其结构。

Gallo还在使用GenAI来通过识别与标准字符串的偏差并填补数据空白来提高数据质量,Barrios说。例如,当客户数据条目的某个属性超出正常范围时,GenAI可以识别出正确的属性,并替换错误的属性。同样的情况也适用于葡萄酒特性。例如,一款葡萄酒可能被描述为“spicy”(辛辣的),而接受的术语是“peppery”(胡椒味的)。因为GenAI理解上下文,所以它会将错误的术语更改为正确的术语。

对于GenAI,Gallo正在使用AWS Bedrock。通过Bedrock,Gallo可以与其自己的大型语言模型(LLM)合作,而不是公有LLM,以确保其数据不会被公开暴露。

Gallo的下一步是记录公司如何做出决策,然后将这些信息提供给能够自主做出决策的智能体,这是自主式AI的一种实现。“这与体育或房地产代理没什么不同。你告诉智能体你想要什么,智能体就会为你找到它。”Barrios说。

制药数据在湖仓中找到归宿

Servier Pharmaceuticals将其数据集中存储在Google Cloud Platform(GCP)Big Query数据湖仓中,该湖仓为从研发到产品团队再到企业公关的六个企业IT组合提供了一个共同的数据平台,每个组合都在一定程度上实施了AI。根据Servier Pharmaceuticals的CIO Mark Yunger的说法,该湖仓及其元数据标签还带来了打破数据孤岛的额外好处,否则这些数据孤岛会将不同团队使用的数据分隔开来。

“我们围绕所有这些分散的数据创建了一个合理的分类法和数据命名法,以便我们可以将其用于AI算法,确保我们输入的是优质数据,这有助于确保我们的输出是正确的。”Yunger说,并补充说AI分析对于销售和营销分析以及洞察特别有益。

在制药行业,专利极其重要,这意味着Servier必须谨慎保护自己的专利,同时防止侵犯其他公司的专利。

“我们必须注意我们放入公共数据集中的内容。”Yunger说。考虑到这一谨慎态度,Servier已经在Microsoft Azure上构建了一个私有版本的ChatGPT,以确保团队在受益于AI工具的同时保护专有信息并保持机密性。Yunger说,GenAI的实施用于加速内部文档和电子邮件的创建。

此外,在制药试验中可能出现的个人数据必须得到极其谨慎的处理,以遵守禁止组织在未经个人同意的情况下主动监控个人的欧盟AI法案。

“风险很高。‘如果存在合规问题,那可能会导致巨额罚款。你必须确保遵守规则。”Yunger说。

AES从源头获取能源数据

专注于可持续能源的发电公司AES已经构建了CEDAR,这是一个在GCP中为AI构建的数据平台,用于聚合和管理其清洁能源站点的运营数据,AES的首席数字官Alejandro Reyes说。

“CEDAR在数据收集和定义方面创造了和谐。它使我们的整个产品线数据保持一致。”Reyes说。他解释说,CEDAR使用Atlan(一个数据目录编制工具)和Qualytics(一个基于机器学习的数据质量工具)将标准应用于数据,以便它可以作为AI的单一来源,无论是由财务、工程、维护还是其他企业部门使用。

AES的Farseer(该平台为公司赢得了2024年CIO 100奖)是一个基于AI的平台,它利用CEDAR的数据使AES能够了解市场需求、预期天气条件、能源容量和预期收入,这些信息使AES能够决定在市场上投放多少能源以及如何定价,Reyes解释说。此外,AES正在使用Google Gemini和Microsoft Copilot,并正在探索自主式AI以处理后台流程。

一切皆以数据为基础

虽然数据仓库、湖和湖仓远非新事物,但AI推动从业务中获取价值的努力正在为它们带来显著的关注——这要求具备顶级的数据治理能力。

“AI不是传统的IT,而是一种变革性工具——每个人都想使用它。挑战在于建立治理,以便我们可以为业务开放数据和AI平台,以构建其所有用例。”Skyworks Solutions的Jayadev说。

根据Servier的Yunger的说法,仅仅希望如此并不会使它成为现实——需要熟练的IT专业人员。在他开始数据治理项目的18个月里,Yunger说,填补人才差距是他面临的最大障碍。“这是一个结合了人才——能力和技能集——以及流程的问题。你需要找到合适的人才来帮助推动和加速这些步骤。”他说。

为了实现他所说的“可持续AI”,AES的Reyes建议需要达成一种微妙的平衡:实施数据治理,但要以一种不会扰乱工作模式的方式进行。他建议确保公司的每个人都理解数据必须被视为一种有价值的资产:在AI的高风险下,有充分的理由必须准确地对数据进行分类和管理。

Gallo的Barrios强化了单一、强大的数据基础的理念。“如果你有一堆不同的基础,它可能会变成一座纸牌屋。”他说,但仅仅有基础是不够的,让业务部门参与进来是至关重要的,Barrios断言道。

“与业务部门合作,确保他们拥有能够显示你工作进展的指标,”他建议道,“你可以拥有最好的数据湖仓,但人们必须使用它。”

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号