合成数据创造商业价值的7种方式

责任编辑:cres

作者:Maria Korolov

2025-06-26 11:18:45

来源:企业网D1Net

原创

长期以来,合成数据一直被用于为AI创建更大的训练集,同时保护隐私和敏感信息,但过去,其使用一直局限于能够负担得起数据科学家的公司,GenAI正在改变这一切。

今年,几乎所有企业都在迅速采用AI,但大多数企业部署的都是与他人相同的平台,这些平台来自相同的供应商。

基于公司独特需求创建定制化的AI解决方案需要数据,不幸的是,公司手头的数据可能存在重大缺口,在使用时可能涉及隐私或合规性问题,此外,数据量可能也不足。

合成数据可以填补这一缺口,帮助企业从其AI部署中找到真正的商业价值。

4月中旬,数字化转型咨询公司EPAM对7300多名大型企业的高管和IT专业人员进行了调查。所有受访者都在尝试或部署AI,其中14%刚刚起步,32%正在发展能力但尚未取得一致结果,然而,近一半的受访者表示已经取得成果,并利用这些成果变得更具有竞争力,但只有5%的人认为自己属于颠覆者,在AI使用方面处于领先地位。

德勤还发现,30%的高级管理人员表示,高质量数据的短缺是采用GenAI的主要障碍之一,这就是合成数据的用武之地。

“拥有真实数据对任何企业都至关重要,”德勤咨询的数据云和机器学习首席专家Chida Sadayappan表示,“但用合成数据进行补充是一个很好的商业差异化手段,使用这种合成数据生成的AI模型将使公司具有优势。”

据Gartner称,到明年,75%的企业将使用GenAI来创建合成客户数据,而2023年这一比例还不到5%。

事实上,据Forrester称,大多数全球企业已经在开展涉及合成数据的项目,更具体地说,报告显示,14%的企业已经在企业范围内部署了多个用例,22%在部门范围内进行了部署,还有22%正在进行初始生产实施,此外,15%的企业处于试点阶段,同样数量的企业处于后期研究和概念验证阶段。

那么,合成数据如何帮助企业创造商业价值呢?以下是主要途径。

1. 构建真正理解你业务的AI

大型AI公司的AI模型本质上是通用的。

“当主要AI供应商在相同的公开可用数据集上训练模型时,结果往往是同质化的AI输出,”数据服务公司Data Axle的CEO Andy Frawley表示,“这限制了差异化。此外,这些数据集可能会延续长期嵌入的错误,降低AI驱动决策的可靠性。”他补充道。可靠性还可能受到影响,因为大型商业模型可获得的信息可能无法涵盖特定客户群体的细微差别。

公司可以通过使用自己的数据或购买的数据对现有AI模型进行微调或增强,或构建小型定制模型来解决这一差距。当这些还不够时,他们可以通过创建新的合成数据来解决。

库存管理公司Nextuple使用合成数据创建定制的AI和机器学习(ML)模型,以理解库存管理挑战。例如,当一大批库存进入中央仓库时,“我们需要决定将其发送到哪里,”该公司的联合创始人兼CEO Darpan Seth表示,“这是一个在那时做出的高价值决策。做出这样的决策需要考虑许多物流和优化因素,这些因素对每个公司来说都是独特的,而使用合成数据多年来对构建和测试这一决策至关重要。

“所以这并不新鲜,”Seth表示,“但现在使用合成数据的方式——可能性比以往任何时候都要大。”

Nextuple不仅使用合成数据来帮助训练ML和AI模型,他还表示,GenAI现在也被用于创建合成数据,使这一过程比以往更快、更容易、更灵活、更智能。

“我们向它输入了我们在所有客户中看到的许多要求,”Seth表示,“它拥有所有这些数据,现在你可以要求它生成用户故事、测试用例、测试数据——以及测试自动化。”

在过去,生成这种合成数据将是一个高度手动的过程。例如,可以创建一个包含三个项目的订单,然后创建另一个包含10个项目的订单,以此类推,并进行一些小的变化。“如今,这一切都非常迅速,因为你可以使用GenAI来完成。”Seth表示。

GenAI还使整个过程民主化了。

“去年年底,我们为团队中的每个人提供了AI工具,”他表示,“这是任何人都可以使用的。”

由于他们的业务客户使用各种平台,Nextuple构建的系统是模型无关的。

“我们使用从OpenAI和Claude到Llama和Gemini的一切,”Seth表示,“AWS有Bedrock,还有Azure,所有这些供应商都提供了一系列模型,有超过75到80家公司提供了一系列不同的模型。”

因此,Nextuple构建了其技术,以使后端AI可以互换。“此外,明天你可能会发现一个更好的模型,或者成本更低的模型。”他表示。

由于Nextuple必须与所有主要的云提供商和AI平台合作,它没有使用任何特定供应商的AI技术栈,而是使用开源组件构建了自己的技术栈,包括LangChain、LangGraph、LangFlow以及用于RAG嵌入的向量数据库,如PostgreSQL的Pgvector。

“还有一些新的范式正在出现,比如模型上下文协议,”他表示,“事情变化得非常快。”

2. 填补数据缺口

实际数据很少是完整的,有时,缺口是由于行为变化造成的。例如,历史购物数据可能显示黑色星期五的销售高峰,但如今,每个人都可能在网上购物,一天的销售高峰可能会延长到一周。有时,缺口出现是因为某些情况非常罕见,因此没有足够的例子。对于某些企业来说,这些缺口可能是至关重要的。

“我做了很多交通管理工作,”IEEE院士兼塔夫茨大学研究生工程院长Karen Panetta表示。她表示,从各种摄像机中可以获得大量数据,但一些最关键的数据,比如某些类型的交通事故,也是最罕见的。

“我们没有足够的翻车视频,”她表示,“所以我们使用合成数据来生成这些数据。”然后是面部识别,有许多数据库包含在良好光线下拍摄的直视照片,仅使用这种数据进行训练会导致系统在某些情况下无法正常工作,甚至如果用于安全目的还可能很危险。

“你一转头、戴上眼镜、微笑或戴上口罩,它就识别不出来了。”她表示。

图像生成器可以用于创建模拟不同光照条件或角度的照片变体,但使用当前技术可以做的程度有限。

“我们尝试为戴口罩的人生成一些合成数据,但它与人体解剖学的匹配度非常差,”Panetta表示,“那些轮廓很重要,所以它失败了,但如果合成数据确实展现出你想要匹配的行为,那么它是一个很好的工具。”

3. 在最大化数据价值的同时保护隐私

许多公司都有现成模型无法很好覆盖的特定用例,这不仅仅是专门的库存管理应用或自动驾驶汽车,它还可能简单到为潜在客户生成电子邮件或幻灯片。

“关于如何起草给客户的电子邮件,没有客观答案,”Dynamo AI(一家专注于AI护栏和合规性的公司)的应用AI副总裁Eric Lin表示,“这是因为公司有自己的风格、语言,当然还有独特的产品信息。产品信息缺口可以通过在推理时将AI指向向量数据库,通过RAG嵌入来填补,但使用实际客户电子邮件来训练AI可能会违反他们的隐私,无论是通过微调还是RAG嵌入。你不希望AI将一个客户的敏感信息包含到另一个客户的邮件中。

“由于隐私和安全方面的担忧,我们一直不敢利用这些数据,”Lin补充道,但合成数据可以剥离所有敏感的私人信息,使其不会进入AI的知识库,并使企业能够创建能够精确撰写所需电子邮件和幻灯片的模型,而且这不仅仅适用于营销应用。

“例如,对于医疗保健行业的公司来说,合成数据有助于模拟患者数据和临床场景,确保在创建多样化训练集的同时遵守隐私法。”Kearney的数字和分析实践合伙人Bharath Thota表示。

通过使用合成数据,医疗保健公司可以获得更好的准确性或创建创新的新产品,他表示,即使这个领域受到高度监管。

4. 加速产品开发和研发

说到创建产品,如果公司正在开发新产品,问题可能不是隐私,而是可能没有历史数据可供使用。当Nextuple想要构建一个新的库存管理应用时,就发生了这种情况。

“我们想要模拟一家公司在其分销中心和商店网络中,基于典型需求因素,库存是如何被消耗的,”Nextuple的Seth表示,“没有实际数据,就无法测试它是否在现实场景中有效。”

他们创建的合成数据包括跨商店和仓库网络的库存位置,以及模拟的订单和它们的到达时间。

“我们使用模拟来理解,例如,在感恩节期间,销售会有一定的激增,了解这些现实情况后,我们创建了合成数据,”他表示,“然后我们有幸与一位潜在客户进行了测试,验证了我们的假设。”

使用合成数据进行产品开发的另一个例子?建造机器人。

“我们如今看到机器人技术有了如此多的改进,”软件开发公司Globant的数字创新高级副总裁Agustin Huerta表示。有虚拟环境,比如Nvidia Omniverse,模拟的机器人可以在其中与模拟的物体交互,创建大量训练数据来快速启动机器人导航空间或处理产品的能力。

“如果你谈论的是用于训练自动驾驶解决方案的计算机视觉数据,我们需要合成数据——没有其他方法可以做到,”他表示,“否则,我们需要让汽车发生碰撞。”

5. 在没有历史数据的情况下探索新市场

合成数据的另一个用例是当公司有产品,但想要在新市场销售时。企业可以模拟消费者可能的行为、偏好以及他们可能对新产品或服务的反应,Thota表示,他们还可以使用模拟数据来帮助完善功能和营销策略。

“想要进入新地区的银行可以使用合成数据来模拟当地的经济条件、消费习惯以及人们可能如何采用他们的金融产品。”他补充道。

卡内基梅隆大学的AI教授Anand Rao曾与一家想要扩展到新市场的拼车公司合作过,但使用相同的策略在所有地方都不会非常有效,因为条件因地而异。

“在纽约市,你需要5到10分钟的响应时间,”Rao表示,“他们对预测不准确不太容忍,比如如果显示8分钟但实际上12分钟车才到,但在密歇根州的安娜堡,如果晚几分钟,他们可以接受。”

这意味着优化策略需要不同,而合成数据有助于完善这些策略。

“我们为十个城市准备了超过20万个进入市场的场景,”他补充道,“这为高管们提供了如何适应新市场的真实见解。”

6. 构建数字孪生

历史上,数字孪生一直被用于模拟喷气发动机、帮助公司进行预测性维护或设计和管理工厂等复杂物理设施。如今,数字孪生的定义正在扩展,包括软件系统、业务流程甚至人员。

公司正在模拟客户、他们的行为、购物旅程、购买模式以及他们对特定促销的反应方式,安永美洲消费者AI负责人Tom Edwards表示,他们通过创建合成客户档案来实现这一点。“这有助于我们理解不同人口统计群体将如何对不同产品定位做出反应,”他表示,“而我们得到的是更好的需求预测和更好的定位。”

而且他看到公司正在使用合成角色代替焦点小组。

“你可以创建数百个角色并测试不同的信息,”他表示,“合成数据允许你填补心理细节。”

这些模拟的角色还可以用于改进电子商务个性化。

“我可以运行数百万种不同的组合,当你购物时,我可以立即根据你的一个预配置角色进行匹配,这个角色是基于合成数据构建的,”他补充道,“我比你更了解你,因为我已经推断了数百万种可能的未来路径。”

这里的商业价值可能达到数百万美元,他表示,因为它解锁了一种与消费者无缝对齐并提供他们以前未见过的推荐产品的方式,公司还可以创建员工的数字孪生。

“在内部,我们正在关注的是人员配备和技能,”管理咨询公司SSA & Company的应用解决方案负责人Nick Kramer表示。

“我们有关于顾问的历史数据,以及关于技能和能力的不可靠数据,”他表示,“但我们有丰富的项目数据,从这些数据中,我们得到了我们的‘素材’,并一直在尝试不同的方法来合成数据。”

这些合成角色可以是人、项目角色或特定头衔,他表示,它们被组合成模拟的项目团队,进而创建对人员配备可能情况以及如何根据技能和工具进行平衡,以及如何优化结果、速度、收入和利润的看法。

7. 为自主式AI做准备

随着AI的发展,使用合成数据的机会也在增加。例如,今年,一切都与自主式AI有关。

根据4月Cloudera的一项调查,96%的企业IT领导者表示,他们计划在未来12个月内扩大对智能体的使用,而且,尽管57%的人表示已经实施了智能体,但最大的单一障碍是数据隐私,53%的人表示这正在减缓采用速度,但在训练智能体时,这不仅仅是关于保护隐私。

“合成数据是加速这些智能体学习并映射复杂场景的一个很好的方法,”安永的Edwards表示,它还可以用于确保智能体能够处理任何被抛给它们的情况。

“如果你能够基于复杂交互运行数百万种不同的场景,那么这将成为一个非常有价值的工具,”他表示,“它将成为你在企业内部署智能体的一个基础方面。”

现实检查:过度依赖合成数据的风险

过度使用合成数据也存在危险。正如Panetta在尝试创建戴口罩的人的合成图像时发现的那样,它有其局限性。

“如果滥用,你可能会面临类似于过度拟合的问题,即输出变得高度重复,”Mendix(一家AI平台公司)的战略高级副总裁Gordon Van Huizen表示,“然后,如果输入一个超出训练数据的提示,可能会导致随机或奇怪的结果,因为系统难以解释新的模式。”

不过,有方法可以解决这个问题,公司可以创建更多样化的数据集、将合成数据与真实数据混合,或向数据中添加噪声以创建异常值。

“但利用合成数据的关键是尽可能始终包含人类验证协议。”他表示。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号