企业AI战略:算法与生态

责任编辑:cres

作者:Michael Krigsman

2024-09-19 11:19:00

来源:企业网D1Net

原创

文章深入分析了数据工程在AI战略中的核心作用,强调了克服AI采用障碍的关键——消除惯性、无知与想象力的匮乏。同时,专家们探讨了AI在推动创新、增强竞争力及道德与偏见问题中的应用,指出AI对中小企业的潜在优势,尤其在数据集有限的情况下也能有效利用迁移学习等技术。

在访谈节目中,主持人Michael Krigsman与两位杰出的嘉宾探讨了企业AI战略的世界:纽约大学斯特恩商学院教授Anindya Ghose和明尼苏达大学卡尔森管理学院教授Ravi Bapna,这两位专家讨论了他们的新书《Thrive: Maximizing Well-Being in the Age of AI》,该书为企业如何实施AI提供了全面框架。

讨论涵盖了广泛的话题,包括“AI之屋”框架、数据工程的重要性以及企业在AI应用中的挑战。Ghose和Bapna分享了关于如何克服AI实施障碍、解决伦理问题以及建立AI就绪型团队的实际见解。他们还探讨了AI如何推动创新与竞争优势,尤其是对于数据量有限的小型公司而言。

节目亮点

构建坚实的AI基础

• 将数据工程作为AI战略的基础,至少将70%的资源分配给数据清理和准备工作。

• 实施“AI之屋”框架,重点关注描述性、预测性、因果性和规范性分析,以最大化数据的价值。

克服AI采用障碍

• 解决阻碍AI实施的“三大障碍”:惰性、无知和缺乏想象力。

• 通过教育领导层了解AI的应用场景及其在各业务职能中的潜在收益,推动创新文化的形成。

利用AI获取竞争优势

• 探索AI在预测建模之外的应用,例如因果推断,以了解业务结果背后的原因,并有效扩展建议。

• 通过迁移学习和微调技术,克服小型数据集的限制,与大型公司竞争。

积极应对AI伦理和偏见

• 在AI工作流程中实施去偏见的流程,包括数据清理、算法调整和结果验证。

• 制定衡量AI模型公平性的指标,发现偏见时准备好进行重新校准。

培养AI就绪型团队

• 提升现有人才的技能,招聘具备因果推断和实验设计等全面AI知识的专业人士。

• 教育高管了解AI的潜力和应用场景,弥合技术能力与业务领导之间的差距。

主要观点

优先考虑数据工程以实现AI成功。 数据工程是成功实施AI的基础。将至少70%的资源用于数据清理和准备工作,这项对数据质量的投资将为所有AI应用带来回报,从描述性分析到高级预测性和因果建模。

克服AI实施的障碍。 解决阻碍AI实施的“三大障碍”:惰性、无知和缺乏想象力。通过教育领导层了解AI应用场景和潜在收益,逐步建立AI能力。利用迁移学习等技术克服小数据集的局限性。

平衡预测分析与因果分析。虽然预测建模具有重要价值,但因果推断对于理解业务结果背后的“原因”至关重要,并能够有效地扩展建议。企业应投资于培养员工的因果建模技能。这种平衡的策略能够做出更稳健的决策,并有助于解决AI系统中可能存在的偏见问题。

节目嘉宾

Anindya Ghose 是纽约大学斯特恩商学院的获奖教授,也是畅销书《TAP: Unlocking the Mobile Economy》的作者。Ghose 被列为其领域前1%的顶尖研究人员,并被评为30位最有可能塑造未来的管理思想家之一。他已在顶级科学期刊和同行评审会议上发表了超过115篇论文,并在国际上发表了超过300场演讲。他曾为Apple、Facebook、Google、Microsoft、Samsung、Snapchat、Tinder 和 Verizon 等公司提供咨询服务,并在包括Tinder与Match估值诉讼、Facebook IPO事件、针对Amazon的假冒商品案件等在内的许多高调审判中提供专家证词。他的研究多次被BBC、彭博电视、CNBC、《华尔街日报》、《经济学人》、《金融时报》、福克斯新闻、《时代周刊》、《卫报》等媒体报道和采访。

Ravi Bapna 是明尼苏达大学卡尔森管理学院的商业分析与信息系统教授。他的研究领域包括在线约会、社交媒体、社交参与、AI和ML创新的因果效应(如推荐系统)、分析学、信息系统经济学、在线信任与同行影响力、数字服务中的人力资本以及在线拍卖。他的研究发表在《管理科学》、《INFORMS计算期刊》、《统计科学》、《信息系统研究》、《零售学报》、《MIS Quarterly》和《决策科学》等众多期刊上。他的观点也被《金融时报》、《华尔街日报》、《沃顿知识在线》和《经济时报》等媒体刊登。他创立了明尼苏达大学的“Analytics for Good Institute”,并因其在分析学和数字化转型方面的工作获得了首届INFORMS ISS实践影响奖。

Michael Krigsman 是全球知名的分析师、战略顾问和行业评论员,因其在数字化转型、创新和领导力方面的深入研究而广受认可。他在全球行业活动中发表演讲,并广泛撰写关于IT失败原因的文章。他的作品被媒体引用超过1000次,并在50多本书和期刊文章中被提及。他关于技术趋势和商业战略的评论覆盖了全球受众。

访谈实录

Michael Krigsman:我是Michael Krigsman,我们今天讨论企业AI战略,重点探讨算法与生态系统。今天的两位嘉宾是来自纽约大学斯特恩商学院的Anindya Ghose和来自明尼苏达大学卡尔森商学院的Ravi Bapna。他们刚刚出版了一本新书。Anindya,这是你第二次做客CXOTalk。欢迎你,能跟我们谈谈你的工作吗?

Anindya Ghose:大家好,我是纽约大学商学院的教授。我的研究兴趣在因果推断与机器学习的交叉点,主要帮助各类公司——无论是小型、中型还是大型公司——使用预测和因果推断技术来解决数据问题。最近,我还参与了一些非常有趣的诉讼案件,作为专家证人在一些美国最大的科技公司(包括Google、Meta、Apple、Snapchat、Pinterest等)的案件中作证。

Michael Krigsman:Ravi Bapna,这是你第一次参加CXOTalk,我非常高兴你能加入我们。欢迎你,能跟我们谈谈你的工作吗?

Ravi Bapna:我是明尼苏达大学卡尔森管理学院商业分析与信息系统的教授,同时也是卡尔森分析实验室和“Analytics for Good”研究所的负责人。

我们差不多在20年前就开始教授这些现在被称为AI的内容了。当时我们对互联网带来的海量数据感到非常兴奋。那时候,互联网革命兴起,人们开始在Amazon上撰写评论,这让我们能够更好地了解消费者的偏好。随后是移动革命,Anindya写了一本关于移动革命的书。接着又是社交媒体革命,数据持续增长。然而,企业利用这些数据做出更好决策的能力并没有同步提高,反而出现了更大的差距。我认为,这就是我们写这本书的动力,这本书汇集了我们近40年的研究,花了将近三年时间完成,所以我们今天很高兴能谈论它。

Anindya Ghose:在AI的讨论中,大家总是谈论AI的负面影响,但我们意识到AI其实有很多积极的一面,这个叙事是缺失的。

Michael Krigsman:你们描述了一个叫做“AI之屋”的基础框架,能给我们介绍一下吗?我可以在你讲的时候将这个图像展示在屏幕上。

Ravi Bapna:在这个房子的基础层,我们有数据工程。正如我之前提到的,许多公司坐拥大量数据,但却无法从中获取见解。在卡尔森分析实验室的过去十年里,我们与90多家公司合作完成了超过130个项目,我们一直在跟踪数据清理、汇总和集成的时间,最终才能开始构建预测模型。这个过程占据了项目时间的60%到70%。

实际上,大部分时间都花在了处理数据上,这为接下来的四大支柱奠定了基础。数据工程之上,我们有四大分析支柱。第一个是描述性分析。它不仅仅是做报告和可视化,还可以使用机器学习来发现产品的共同购买模式,并利用这些模式推荐新产品。Amazon 25年前就已经在做这些事情了。接下来是像银行在异常检测方面做得很好的事情,找到不符合模式的东西,可能是风险,也可能是机会,还有客户分组的工作。所以,这就是描述性支柱。

然后是预测性支柱。作为公司,你可能想预测客户的流失率,或者如果你是HR团队,可能想预测员工是否会离职。顺便说一下,这是未来三年我们看到的主要工作和价值所在。

接着是因果分析,区分相关性和因果性。这是一项许多人没有很好掌握的技能。还有规范性支柱。然后我们还有几层,Anindya可能想谈谈这些层次。

Anindya Ghose:在你带我们回顾这个框架时,一个对从业者的重要建议或经验教训就是,不要一开始就被建模所吸引。相反,应该将大部分时间和资源投入到数据工程部分。Ravi和我在这本书中谈到的一个重点是,至少70%的时间应该花在数据清理上。大多数数据集要么是现有的,要么是刚刚生成的,它们往往是原始且杂乱的。所以你必须清理它。我们合作过的很多组织犯了一个战略性错误,就是没有花足够的时间清理数据,而是急于跳到Ravi提到的那些酷炫的规范性、描述性、预测性和因果性支柱上。这一点需要牢记。

在Ravi的基础上,我还想补充,Ravi和我都非常关注公平性。我们关心公平和公正。作为AI之屋的顶层,当业务领导者或从业者讲述这个框架时,他们必须确保他们对公平性和公正性给予足够的重视,无论输入数据是什么,还是生成的结果。

另一个有趣的事情是,GenAI为这四大支柱和数据工程部分增添了新的元素。

我认为我们即将迎来一段非常精彩的旅程,这是积极的一面,因为从业者可以从中挖掘出许多潜在的优势。而且,我们在书中详细地引导读者如何进行这些操作,所有内容都在书里。

Michael Krigsman:对于企业中关注各种AI项目的人们来说,他们应该如何使用这个框架呢?

Anindya Ghose:第一步是确保你组建了一支团队来清理数据——也就是数据工程部分。很多组织具备收集数据的基础设施,但他们可能没有合适的人来清理和策划这些数据。

一旦你将原始数据清理完毕,你就可以开始利用四大支柱中的任何一个,无论是预测性、因果性、规范性还是描述性分析。这个过程必须分阶段进行,但也是一个迭代的过程,因为随着新的数据从你的建模技术中产生,你需要回过头来查看这些数据中是否全是信号,是否仍然存在噪音,或者是否需要再次进行清理。我认为我们在书中提供了一个循序渐进的路线图,指导人们如何进行这些操作。

我还想补充一点,Ravi也提到了:当我们谈论这四大支柱时,很多人会说,“是的,我们有做预测分析的技能”,但我认为,因果推断的重要性正在变得越来越显而易见。如果你无法理解“为什么”,你就无法扩展你的建议。

Ravi Bapna:现在有一个误区,认为随着GenAI的火热,它就是AI的终极定义。我认为,在未来至少三到五年内,企业的大部分价值仍将来自我们讨论的这四大支柱。关键是GenAI将帮助你更好地完成这些传统的AI任务。这是我认为非常重要的一点。

Michael,关于你提到的企业应该如何开始思考这个问题,我们可以讨论为什么企业无法或不善于区分相关性和因果性。为什么他们现在还没有部署AI之屋的全部功能?

Anindya和我讨论了很多,我们的观点是,有三大“障碍”。第一是惰性,这是一股强大的力量。现状总是占上风,尤其是在高层领导中。如果领导层不熟悉这种语言,或者没有见过这样的框架,他们就不知道具体的应用场景。因此,改变他们现有的决策方式,去做一些不同的事情,比如需求预测或库存优化,这对他们来说很困难。惰性是一个巨大的障碍。

第二是无知,即对所有应用场景和潜在可能性的缺乏了解。我认为这是我们在书中重点解决的问题之一。我们几乎在每个方面都有应用场景,而且根据我的经验,我们的项目涉及了各个行业和职能。

第三是缺乏想象力。在过去20年中,我参与过的最具创造性的解决方案——Anindya肯定会同意——都是那些跳出常规思维的结果。例如,某个人想到:“如果我可以做X和Y,把这两个支柱结合起来,也许我可以发现趋势。”你可以看到像General Mills这样的公司,他们是Yoplait酸奶品类的市场领导者,但突然之间,Chobani崛起了。没人预测到这一点,因为他们没有机制去做你可能称之为异常检测的事情。这是什么异常的模式?它是信号还是噪音?我们应该如何应对?聪明的公司会这样做。

Michael Krigsman:我们从Twitter上收到一个有趣的问题,来自Arslan Khan,他问道:“数据对AI非常重要。企业如何知道应该收集什么,不应该收集什么?他们如何知道自己是否正在创建所谓的‘数据泡沫’,这些泡沫可能会导致错误的建议?”

我们也收到了来自Twitter用户Rose Semenov的评论,她在问用例问题。也许你们可以谈谈数据收集的问题,并结合你们的书,介绍一下幕后发生的事情。例如,在约会应用或金融交易中,如何将数据问题与实际的用例联系起来?

Anindya Ghose:当我听到这个问题时,我想到的是Ravi提到的惰性问题。我经常被问到这个问题:“我们应该收集什么数据,或者不应该收集什么?”有时人们做的额外分析会导致惰性:“我不知道应该收集什么数据,所以可能我就不开始收集了。”我对这些公司的建议是:“先开始行动吧。这不是一次性完成的过程。”Ravi和我都不会告诉你这是一次性完成的事情。这个过程是非常迭代的。

换句话说,你必须通过实验和学习来确定你正在收集的数据集哪些是真正有用的。你在一开始可能有一个大致的判断,但很难事先确定:“这三件事最有帮助,那两件事没那么重要。”你只有在收集了数据并将其输入算法后,看到它的预测结果时,才能知道这些。

Ravi Bapna:我想补充的是,最终这归结为:是什么问题让你夜不能寐?你想解决哪些问题?

这是领导层在以数据驱动的方式进行决策时遇到的一个缺口。如果他们不知道具体的用例,他们就不会意识到,“嘿,也许我在某个阶段的漏斗中遇到了问题,我在这个阶段失去了很多人,而这是我想解决的问题。为了做到这一点,我需要预测X、Y和Z,而为此,我需要这个特定的数据集。”

我认为Arslan的担忧是对的,我们不希望陷入数据泡沫,正如他提到的那样。我们必须基于实际用例来做数据收集。一旦我们确定了要解决的问题,我们就可以开始引入不同的数据源。这也是当今世界的美妙之处。我们可以整合多种数据源——例如,构建客户流失模型。在过去,人们可能只会看人口统计信息,或者稍微深入一些,做心理画像。但现在我们有行为数据。我们知道人们在做什么,买了什么,怎么说的。我们知道他们推荐客户或评论产品的可能性有多大。

还有很多其他行为数据。例如,他们是否在社交媒体上谈论你的产品?在这个领域,聪明的公司会整合所有这些数据源,但前提是要解决他们想要解决的问题。我与CEO的对话通常是:“什么问题让你夜不能寐?你的需求预测做得如何?”

你可能会惊讶,许多财富500强公司在需求预测方面表现得非常糟糕。想想所有下游的影响,以及基于这些预测所做的决策。如果你的预测误差是10%,那么你基于这个错误预测做出的20个决策可能都是错误的。

Anindya Ghose:我们在市场组合建模和归因建模中看到了这一点。75%到80%的市场营销人员理解它的重要性,但他们仍在摸索如何去做。这也是为什么我们在纽约大学MSBA项目中做了很多相关项目的原因。

Michael,回到你关于约会的问题,我能分享一个我最喜欢的约会统计数据吗?在我们的书中,我们提到,如果你的约会资料中有两个拼写错误,你找到灵魂伴侣的几率会降低14%。14%!两个拼写错误!所以我们都需要一些灵魂伴侣(笑)。这就是AI真正有帮助的地方。显然,我们有点幽默,但事实是,人们在资料中会犯拼写和语法错误,而这会对他们造成影响。

AI的一个低成本应用就是用它来避免这些简单且可以预防的错误。几年前,我为Tinder和Match.com做了一些工作,Ravi也为多家约会公司做过很多工作,所以我们除了AI建议外,还可以提供一些约会建议。

Michael Krigsman:这是CXOTalk第一次给出约会建议。所以,如果你在约会,务必要确保你的约会资料没有错误。

我们在LinkedIn上收到另一个来自Michael Walton的问题,他问道:“你们对AI在食品研发和食品制造中的应用有什么看法?”

Ravi Bapna:在明尼阿波利斯,我们有一个庞大的食品和农业企业集群。从像Cargill这样的商品公司到像General Mills这样的品牌公司,它们都在各个不同的职能领域深入思考AI的应用。

如果你开始思考食物的来源,在我所在的卡尔森分析实验室,我们与Land O'Lakes合作了近十年,帮助农民做出更好的食品生产决策。在典型的一年中,农民要做出大约40个重要决定:使用哪种种子,浇多少水,施多少肥料以及在哪里施肥。我们现在开始进入一个可以以精确农业的方式处理这些问题的阶段。AI模型可以区分小麦秆和杂草。你希望优化农业的生产功能,许多公司都在不同方面努力,如John Deere、Land O'Lakes等公司。

在上游,你会看到像General Mills这样的品牌公司。它们不断关注不同渠道的运作情况,以及影响者如何在使他们的产品成为首选产品中发挥作用。许多模型被用来预测这一点。

对我来说,这是一个从头到尾的流程。顺便说一句,几乎所有日常影响我们的行业都是如此,食品行业也不例外。

Anindya Ghose:我刚刚指导了一位高中生,Michael,他想做一个研究项目,试图找出影响玉米消费和玉米生长的预测因素。他收集了全国范围内有关降水、天气和土壤质量的数据,并建立了一些预测模型,以找出哪些地区最适合玉米的生长和发展的时间点。

我认为,正如Ravi所说,这个行业还处于初期阶段,但发展迅速。你会看到更多类似的情况。食品的另一个角度是营养。当我想到食物时,我会想到营养,想到个性化健康。Ravi谈到的是AI在食品制造中的应用,但AI在食物消费中的应用也非常重要:“我们什么时候吃?我们吃什么?这如何与我们的其他健康行为,如锻炼和睡眠相互补充?”锻炼、睡眠和饮食是健康的三大重要支柱。

Michael Krigsman:我们从Twitter上又收到一个来自Arslan Khan的问题,他问道:“数据是否正在导致垄断?拥有大量客户数据的组织可以使用AI,那么那些没有大量客户数据的小公司该怎么办?”

Anindya Ghose:是的,数据确实有帮助,但根据我的经验,数据并不是进入市场或创新的重大障碍。我将这一点放在数字营销和数字广告的背景中进行说明。过去20年里,我们有没有看到公司进入数字广告领域的减少或停滞?没有。实际上,我们看到更多的新公司在这个领域涌现出来,甚至是那些没有面向消费者数据的公司。

想想The Trade Desk。他们现在与一些最大的科技公司直接竞争,并在竞争中击败了他们。再比如Criteo,另一家没有面向消费者产品的数字广告公司。当他们进入市场时,数据为零。他们从零开始积累,现在他们与硅谷的大公司竞争,并在竞争中胜出。虽然数据肯定有帮助,但它并不是进入市场的障碍。

即使你是一家小公司——我刚刚提到了几个例子,但还有很多——除了The Trade Desk和Criteo,还有Magnite和PubMatic。有很多公司在第一天几乎什么都没有,但今天它们是公开上市的公司,给知名的科技公司带来了很大的竞争压力。

Ravi Bapna:我想补充几点。首先,即使是小规模或合理规模的数据集,你仍然可以使用AI并获得目前无法获取的洞察。这不应该成为借口,比如你应该思考如何通过细分更好地了解客户,或者构建一个预测模型,来确定你下一次促销应该针对哪些客户。我们已经看到,使用只有2,500行数据集的公司也取得了巨大成功,而不是需要2,500万行数据。所以,这不是借口。你可以开始使用AI,开始利用这些能力。

例如,Amazon刚开始时并没有大量的消费者数据,但他们仍然提供产品推荐,可能使用的是关联规则挖掘算法,基于人们购买的商品和共同购买的商品。即使是这样简单的东西,每个有一千个交易的公司都可以使用,这是触手可及的低成本成果。

另一个要点——Anindya和我前几天也讨论过——是GenAI的设置方式将消除大型数据垄断的优势。如果过去我想构建一个情感分类器,可能需要一个相当规模的数据集。可能需要1万行标记数据来构建一个准确的模型。而现在,我可以在ChatGPT上提出这个问题,它会给我答案。每个小企业都可以访问这种能力。顺便说一句,我们稍后应该讨论一下:GenAI也可以为你构建一些模型。如果你有一个小数据集,且没有数据科学家来构建XGBoost或机器学习模型,GenAI现在具备了这种能力。我们在大学教授的课程中已经开始试点这种方式。

我不接受“小数据”作为借口。每个人都可以开始爬这座山。在我们书的最后一章中,我们使用了“AI峰会”作为比喻。我认为Anindya是一位登山爱好者;我年轻时在喜马拉雅山花了很多时间——15岁时我去过珠穆朗玛峰大本营。这里有一个一号营地;有一个大本营——大本营就是数据工程。一旦你到达大本营,你就可以开始做其他事情,比如描述性分析和预测性分析。到达第三营地时,你会开始思考相关性和因果性。每个人都可以开始考虑这个问题;每个人都可以从中受益。

我经常听到“小数据”借口,但人们对这一领域的理解还不够深入,不能以此为借口。

Anindya Ghose:这正是我们提到的惰性。分析麻痹导致惰性,而惰性又导致缺乏创新。也许这是我们应该考虑的第四个“I”:无知、惰性、缺乏想象力,最终导致缺乏创新。

Michael Krigsman:但这不意味着,如果你有一个小数据集,在个性化方面你会处于劣势吗?

Ravi Bapna:不完全是,Michael。现在有了GenAI,我们可以进行微调。我们可以使用现有的GenAI模型,即使是小数据集,我们也可以稍微调整参数,使其适应一个小型初创公司。还有其他架构,比如RAG(检索增强生成),也可以帮助我们做到这一点。这已经改变了游戏规则。

在机器学习中有一个叫做迁移学习的技术概念。它的想法是,你可以拿一个为X构建的模型,通过稍微调整,就可以用于Y。而这种调整并不需要大量数据。

Anindya Ghose:Ravi,记得我们几天前还在短信中讨论这个话题。这是个很好的问题。是Arslan提问的吗?

Ravi Bapna:是的。

Anindya Ghose:我们经常被问到这个问题,我们两人都迫不及待想告诉大家,这个问题现在已经不再是担忧了,多亏了迁移学习、RAG和GenAI。小数据不再是进入障碍。

Michael Krigsman:我们又收到一个来自Twitter用户Ravi Karkara的问题,他问道:“为什么世界需要就政策和伦理问题进行讨论?”他特别想了解AI在食品领域的应用。你可以稍微谈一下这个问题,但这里还有更广泛的问题。你能讨论一下AI伦理及其对食品行业的影响,特别是对企业的影响吗?

Ravi Bapna:首先,算法本身从来不会有偏见。算法是数学中的一个概念,它会根据你输入的数据提供洞察。那么,我们输入了什么数据呢?让我们来看一些例子。几年前,Amazon因为开发了一款对女性有偏见的简历筛选工具而受到批评。事实上,Goldman Sachs和Apple Card也有类似的问题,都是在AI算法中的性别偏见问题。那么,为什么会出现这种情况呢?

如果你回到Amazon的简历筛选器这个例子上,为什么算法会将技术岗位的高绩效与男性联系在一起?可能是因为历史上,社会生成了反映这种偏见的数据。或许高中里没有足够的孩子,尤其是女孩,报名参加数学和科学课程。因此,她们没有获得STEM学位,因而不符合技术岗位的要求。这不是算法的问题,而是社会的问题——一个复杂的社会过程生成了有偏见的数据。

偏见的起点不是算法。这正是偏见的来源。而我们现在正处于设计算法以修复和识别这些偏见的阶段。这也是我们教给管理者的内容。参加Anindya负责的纽约大学MSBA项目或者我们的项目的学生,都会学习一个完整的课程,专门讨论如何去偏见这些算法及其结果。这意味着AI更可能是解决方案,而不是问题。

Anindya Ghose:我们必须非常重视AI伦理,这个问题是可以解决的。它之所以可解决,是因为在第一阶段,当你查看输入数据时,你可以识别出可能导致结果偏差的数据元素——我们称之为离群值。如果它们偏移了输出,可能就会导致偏见。这个问题可以解决,因为你可以识别出离群值,清理数据,然后再将其输入算法。这就是去偏见过程的开始。

我认为到目前为止发生的情况是,由于这个我们谈论过的小型产业,很多讨论都集中在问题的一方面,而忽略了这是一个可以解决的问题。实际上,这并不是什么难事。我们在MSBA项目中教授这一点,并看到了很好的结果。所以,不用担心!

Ravi Bapna:我们AI之屋的中层部分之一是强化学习。这是一种基于“探索与利用”理念的强大方法。

在筛选求职者的背景下,什么是“探索与利用”?也许,如果你运行一个算法,完全基于历史招聘模式和人们的表现模式——比如Amazon早期做的那样——你可能会给某个候选人打出非常高的分数。但这个算法会说,“等等,这个人的分数最高,但让我冒个险,10%的时间我会尝试一下第三高分的候选人,或者下一个人。”

这自动增加了你招聘的人员池的多样性。可能有一些特定群体的人——例如具备超强技术能力的女性——在探索过程中被算法纳入。然后算法会学习到这些人表现得非常好,这就引入了平等性。我们看到,强化学习通过这种“探索与利用”的方式,帮助实现去偏见。

我们还会指导与我们合作的公司员工以及我们的学生,在看模型性能时,不仅仅关注准确性。还有一些围绕公平性的特定指标,比如真正率(True Positive Rate)。这些指标在不同的群体中是否不同?在男性和女性之间是否不同?在不同种族之间是否不同?我们必须将这一整套校准过程嵌入到模型中,以确保它们也是公平的。今年夏天,我们两人一直在建议公司将这些因素纳入考量。

有时,这会带来一定的成本。如果你关注公平性,可能短期内无法实现利润最大化,但从长期来看,你可能就不会被起诉!<笑声> 我认为这就是我们现在的处境。

Michael Krigsman:不过,说实话,我觉得你们把这个问题简化得有点过头了。是的,从数学的角度来看,你可以剔除数据中的问题并调整算法,但这些产品依然在社会背景中运作,问题往往在此处出现。这也是为什么全球,尤其是美国和欧洲,对AI监管如此重视。

Arslan Khan 继续提出异议,他说他不同意“算法不能有偏见”的观点。他举例说,他9岁的女儿指出,Tesla屏幕上只显示了一个男人的轮廓,即使是一个女人正在过马路。

Anindya Ghose:我不认为我们说过“算法不能有偏见”。我们说的是,如果存在偏见,它可以很容易地被去偏见化。

回到第一步,我确实认为我们在简化这个过程,但Ravi和我做过很多次,这是一个简单的过程,并不复杂。它不是火箭科学。你必须愿意并有意识地去改变和回顾你正在做的事情;你必须愿意适应和尝试。

许多人被这个问题的复杂性困住了,但这个去偏见化的问题并不是火箭科学。它需要一些工作来解决,但这是一个可解决的问题。

这也是我们对AI保持乐观的部分原因。我们并不是空谈。Ravi和我与大约200家公司合作过,我们非常实际地参与了这些过程。我们做了很多次,并经历了去偏见化的过程。我们找出了问题,并使用正确的模型解决了跨行业和跨国家的问题。这是一个可以解决的问题,并不像人们想象的那么复杂。我们应该放下那三个“I”——惰性、无知、缺乏想象力——朝着创新前进。

Michael Krigsman:在Twitter上,Rose Semenov再次提到偏见和公平性,提出了AI作为黑箱的问题,这可能导致缺乏透明性。你能谈谈这种不可解释性是如何导致表面上缺乏公平性的?

Ravi Bapna:现在有很多工作正在进行中。许多研究部门和大学的聪明人都在撰写博士论文,专注于解释黑箱模型。在我教授纽约大学MBA学生的三天课程中,我们有一个下午专门讨论如何解释黑箱模型。有一些方法,虽然它们并不完美,但我们认识到这是许多公司采用AI时的关键障碍。

我有一个曾经的学生,构建了一个复杂的需求预测模型。他进行了25年的季度回测。当模型预测某个业务单元的需求会下降6%时,经理的第一个问题是:“基于什么?你能解释这个预测是如何得出的吗?”学生无法真正解释,因为这是一个复杂的深度学习模型,使用了诸如LSTM之类的技术。

经理不相信这个预测。猜猜后来发生了什么?需求确实下降了6%。<笑声> 公司失去了这个机会,他们就是这样学到的。我给他们的建议是:“让我们运行一个影子过程。继续做你们原本在做的事情。如果有人在构建一个黑箱模型,我们可以将这两个过程并行运行一年,看看哪个更胜一筹。”很快他们就信服了。他们不需要详细了解模型是如何预测需求的,只要他们知道预测是准确的。只要他们知道模型是准确的,他们就可以根据结果进行相应的规划,正确安排人员和招聘。我认为现在很多人都在采用这种方式。

大家经常谈论可解释性,但让我们看看医疗保健领域。想象一下医疗成像。如果我构建了一个模型,它可以通过X光片检测骨折,我真的需要知道图像中的哪个像素负责这个诊断吗?不需要。在很多用例中,我们得到了大量的实际价值。很多医院都在这样做。我们可以通过X光片检测到骨折。如果你在撒哈拉以南的非洲,无法获得受过训练的放射科医生或骨科医生,AI可以为你提供帮助。在我们的书中,我们有一整章讨论这个问题。我们提到了东欧的一些诊所使用这种AI来检测乳腺癌——比人类更准确,实际上。

我们将达到一个阶段,没人再讨论这些极其复杂模型的可解释性问题,因为我们正在验证其输出,并看到它们确实在挽救生命。因此,这里有两点:许多人正在研究可解释性,但也有许多用例实际上不需要关注可解释性。

Michael Krigsman:我们又有一个关于偏见和去偏见的有趣问题。Lisbeth Shaw 说:“如果去偏见意味着质疑现有的数据集,可能需要从头开始?公司想要执行和上市的速度,这一步可能不会被批准。”

Anindya Ghose:这种情况在理论上可能会发生,但在实践中,通常数据集中只有某些观察值或变量是有问题的。我没有遇到过整个数据集都有问题的情况。更有可能的情况是,假设一个数据集中有10个变量,其中7个是没问题的,只有3个有问题。

在这种情况下,你需要意识到这些问题,并找到解决方法,或者通过数据工程过程修复这些问题,或者通过调整基础设施来从源头上生成和收集更好的数据。

简而言之,更可能的情况是你将拥有一个混合的数据集,其中一部分是好的,另一部分有问题。现在有很多工具可以解决这些问题,例如外推、插补和数据策划。

Ravi Bapna:更广泛的信息是:首先,我们必须认识到这是一个问题,因此讨论这个问题是有益的。其次,我们现在有具体的指标和文献,背后有科学来检测算法中的偏见,而不仅仅是基于它们的准确性。我们可以通过公平性测试来运行这些算法。如果我构建一个模型,结果是否公平?假设我决定某人是否应该获得信用卡,我是一家银行,我查看不同子群体的真正率,发现存在显著差异。我的学生知道这是一个停止点,意味着我们必须回头重新校准模型。我们可能需要对某些子群体进行过采样,尝试从代表性不足的群体中学习更多。

这也是正确使用AI模型教育的一部分。这个技术不会消失,所以我们必须教育自己如何以最佳方式使用它。从许多方面来说,这就是我们书中的信息。

Michael Krigsman:再次来自Arslan Khan的问题:“如果组织部署了有偏见的系统导致问题,他们没有意识到这种偏见,消费者应该起诉谁?谁应该对这些AI负总体责任?”

Anindya Ghose:在美国,我们是一个诉讼频繁的社会,所以起诉很容易。这不应该是问题。在海外,这可能会更难一些。

我会质疑这个问题的前提。如果一个组织在使用一个有偏见的数据集,首先要问的是,这种偏见的程度如何?是重要的还是无关紧要的?当最重要的输出变量有偏见时,偏见才是有意义的。如果只是某个次要变量有偏见,那就不重要了。你需要先弄清楚这一点。正如我所说,解决这些问题是有路径的。你不需要火箭科学家,一个好的数据科学家就可以解决这个问题。

大多数组织都意识到这一点的重要性。根据我的经验,好的一面多于坏的一面。CEO、CTO和CIO们并没有故意创建有偏见的系统。他们是在解决问题的过程中,可能无意间使用了未去偏见的算法和数据集。重要的是他们意识到了这一点。在我与至少12个行业中50家公司的合作中,他们都愿意解决这个问题。我从没遇到过有人在我指出偏见问题后说:“哦,没关系,别担心。”

Michael Krigsman:在AI之外也有类似的例子。如果食品有问题,FDA会进行召回。如果汽车有问题,汽车也会被召回。我们有处理这些无意中产生的问题和影响的历史。

我们继续讨论,因为时间有限。你们经常谈到与AI相关的生态系统。你们所说的生态系统是什么意思,为什么它如此重要?

Ravi Bapna:AI是一种快速发展的、复杂的、无形的通用技术。正如我们所说,很多人并没有真正理解它——这也是我们写这本书的原因,试图揭开它的神秘面纱。

我认为我们已经看到的——而明尼阿波利斯双城地区的公司也明白这一点——是能够接触到像明尼苏达大学和其卡尔森分析实验室这样以研究为导向的大学的重要性。我们与几乎所有中型公司和财富500强公司都有很好的合作伙伴关系。公司可以向我们提出问题,我们可以帮助他们找到答案。由研究生组成的团队在导师的监督下解决这些问题,这为我们创造了一个充满活力的生态系统。它形成了一个良性循环。我们的学生通过处理真实的世界数据和问题进行学习,这些不是某个教授编出来的理论性问题!<笑声>公司在市场之前就能够接触到人才,并且还能获得教师和博士生的专业知识。我认为Anindya在纽约大学建立的生态系统也非常相似。

Anindya Ghose:我们有一个名为“Capstone Program”的项目,这个项目非常贴近现实。学生小组会嵌入公司,处理真实的数据集和问题,且有一位教师顾问指导。Ravi曾担任顾问,而我作为项目主管也深度参与其中。

关于你提到的生态系统问题,我认为这是学术界、产业界和政策制定者共同努力的结果。私营部门必须参与进来。好消息是他们已经参与了,这是一个持续的旅程。我们在学习中前进,但好消息是人们已经在参与其中了。两年前,如果你说“你在运行一个AI项目”,人们可能会说,“哦,那是什么宅男或极客的事情?”但自从ChatGPT问世后,大家都想加入AI的路线图。

Michael Krigsman:你在与公司合作时,看到哪些与劳动力相关的问题?

Anindya Ghose:我来举个明确的例子。这些年来,我们发现每个人都可以做预测建模,但很少有人能够做因果建模。我一直在推动的一项劳动力技能要求,终于得到了实施,就是修改课程以显著增加因果推断这个第三支柱的内容。我们正在为学生提供计量经济学、因果机器学习和现场实验的培训。

仅仅擅长预测建模是不够的。你还需要具备因果推断的能力。我们看到招聘人员回来告诉我们:“这非常有帮助,因为你们的毕业生具备全面的工具。他们不仅理解预测,还理解‘为什么会发生这种情况?接下来会发生什么?是什么导致了这些变化?’”我们对此感到非常自豪。

Ravi Bapna:在AI框架内,有能够工作的供给方人才,也有来自公司的需求方。在我看来,存在一个巨大的、不断扩大的差距。领导者、高管、高级副总裁、总监——他们并不清楚AI可以做什么。我曾在一个活动中和一位校友交谈,我问她,“工作情况如何?”她说,“我找到了一份很棒的工作,我不会说出公司名字。我很开心,薪水不错,还买了一辆新车。但老实说,教授,我在工作中真的很无聊。我仍然在用Excel做报告和创建可视化图表。你们教了我们很多东西——强化学习、深度学习——但我的公司没有管理者和高管能给我们提供可以用这些技术解决的问题。”

这就是我所说的公司内部的需求方问题。我们一直在通过高管教育来努力培养高管群体,教育他们。“看看,你们坐拥大量数据。你们做了很多错误决策,因为你们把相关性和因果性混淆了。让我们开始攀登AI的高峰吧!让我们开始创造业务价值!”

Michael Krigsman:Arslan Khan问:“如果企业在进行可能直接影响人们生活的AI应用,比如在金融、住房、就业等领域,是否需要某种政府机构来提供制衡机制?”换句话说,“你们如何看待政府在AI领域的监管和政策制定?”

Anindya Ghose:确实有监管的潜力,但目前没人知道这种监管应该是什么样的。我建议保持谨慎。是的,新技术可能被滥用或得到良好使用,因此有些监管的空间,但我们不能操之过急走得太远,因为我们——包括我们自己——还在学习。我们还不知道需要监管的具体内容。这是我的总体看法。当然,情况可能更加复杂,但简而言之就是这样。

Ravi Bapna:在结束之前,你对企业界的朋友们有什么最后的建议吗?

Anindya Ghose:请阅读我们的书,这不是因为我们想卖书,而是因为Ravi和我在过去20年里付出了大量心血——加起来就是40年!我们迫不及待想与大家分享这些知识。如果可以的话,我愿意免费赠书。只是我们没有这种能力。我们希望你们能传播这个信息。我们尽力使这些内容变得浅显易懂,并期待听到你们的反馈。

Ravi Bapna:我完全同意。这项技术将长期存在。如果我们正确使用,所有早期的研究都表明我们将看到生产力的提高。我们不会取代人类的劳动,而是以正确的方式增强它。领导者需要加速学习,教育自己,并找到更好的工作方法。社会上有很多需要解决的挑战,企业有创新的空间。AI将是实现这一目标的能力。

正如Anindya所说,我们很高兴充当向导,帮助大家攀登这座AI高峰。

Michael Krigsman:你们与许多不同规模的组织合作,能否指出一个最大的绊脚石是什么?最大的挑战是什么?你建议如何解决它?

Ravi Bapna:就是我们一开始提到的那三个“I”:惰性、缺乏意识(我们称之为无知——可能这个词有点严厉,但的确如此),再深入一点,就是缺乏想象力和创造力。Anindya和我讨论过,这些都会导致缺乏创新。这是我们一再看到的现象;我们知道问题的症结所在。它是在人的层面上。

Anindya Ghose:我来给一个长期的观点。我合作的许多管理者——包括CEO——都在考虑下一季度。“我如何让下一季度表现得好?”但当你思考基于AI的转型时,这不是三到六个月的旅程。这是一段长期的旅程,所以不要指望立竿见影的效果。要意识到长期的规划,相信我们,采用AI,从长远来看,它会有回报的。

Michael Krigsman:非常感谢Anindya Ghose和Ravi Bapna。谢谢你们花时间与我们在一起,我非常感激。

Ravi Bapna:感谢你邀请我们。

Anindya Ghose:非常感谢你们的邀请。

企业网D1net(www.d1net.com):

国内主流的to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2024 京ICP备09108050号-6京公网安备 11010502049343号