OpenAI CEO Sam Altman对“空中的魔法智能”的宣言引发了硅谷开发者的狂热,许多人相信我们即将实现跨所有领域的人类水平的机器智能,即所谓的AGI。
然而,随着2024年的进展,一个更加微妙的叙事正在浮现。扎根于现实的企业在实际应用中实现AI的过程中采取了更为谨慎的态度。人们逐渐意识到,虽然像GPT-4这样的大型语言模型(LLM)非常强大,但GenAI总体上并未达到硅谷的高期望。LLM的性能已经趋于平稳,面临持久的事实准确性挑战。法律和伦理问题层出不穷,基础设施和商业用例比预期的更具挑战性。显然,我们并没有走上实现AGI的直接路径。甚至更为温和的承诺,如自主AI代理,也面临许多限制。旨在以真实数据和准确性“接地”AI的保守技术,如RAG(检索增强生成),仍然存在巨大障碍。基本上,LLM仍然存在大量的幻觉现象。
相反,公司正专注于如何利用现有LLM的强大基本功能,这种从炒作到现实的转变由六个影响AI格局的关键辩论所体现,这些辩论代表了热衷于即将实现超级智能的狂热信徒和倡导更务实的AI采用方法之间的分歧。对于企业领导者来说,理解这些辩论至关重要。对于那些希望利用这项强大技术的公司来说,尽管它不是一些最狂热支持者所声称的那样神奇,但仍有重大利益可图。
不要误解,大多数企业领导者仍然相信这项技术已经带来了深远的好处。在我们最近的AI影响力巡回演讲中,与全国财富500强公司进行的会议和活动中,领导者们公开讨论了他们拥抱AI承诺的努力。
现在,让我们深入探讨这六个辩论:
1. LLM竞赛:是否已经见顶?
自从OpenAI的GPT-3问世以来,开发最先进LLM的竞赛一直是AI领域的显著特征,但随着我们进入2024年下半年,一个重大问题浮出水面:LLM竞赛是否结束?
答案似乎是肯定的,至少目前是这样。
这很重要,因为领先的大型语言模型(LLM)之间的差异变得越来越难以察觉,这意味着企业公司现在可以根据价格、效率和特定用例的适合度来选择,而不必追求“最好”的模型。
在2023年,我们目睹了一场激烈的竞赛展开。OpenAI在3月发布了GPT-4,展示了推理能力、多模态功能和多语言能力的显著改进。评论家们认为,随着这些模型被输入更多数据,性能将继续提升。一段时间内,似乎他们是对的。
但是在2024年,这一速度显著放缓。尽管Altman模糊地暗示未来会有更多惊喜,但该公司的COO Mira Murati在6月中旬承认,OpenAI实验室中并没有比已经公开的更多的内容。
现在,我们看到明显的停滞迹象。OpenAI似乎遇到了瓶颈,而其竞争对手Anthropic赶上了,并发布了Claude 3.5 Sonnet,在许多方面超越了GPT-4。值得注意的是,Claude并没有大幅领先,它只是略有改进。更有趣的是,Sonnet基于Anthropic的较小模型之一,而不是其更大的Opus模型——这表明大量的数据训练并不一定会带来改进,而是通过优化和微调较小模型才能取得关键进展。
普林斯顿计算机科学教授Arvind Narayanan上周写道,认为模型扩展正在走向AGI的流行观点“基于一系列的神话和误解”,仅靠扩展模型几乎不可能实现AGI。
对于企业领导者来说,这种停滞具有重要意义,这意味着他们应该利用最适合自己特定需求的个别LLM——现在有数百种这样的LLM可供选择。没有哪一个“神奇的独角兽”LLM可以统治一切。在考虑他们的LLM选择时,企业应该考虑开放的LLM,如基于Meta的Llama或IBM的Granite的模型,这些模型提供了更多的控制权并且更容易针对特定用例进行微调。
2. AGI炒作周期:顶峰还是低谷?
随着LLM突破速度的放缓,一个更大的问题出现了:我们是否已经达到了AGI炒作周期的高峰?
我们的答案是:是的。
这很重要,因为公司应该专注于利用现有的AI能力进行实际应用,而不是追求AGI的承诺。
ChatGPT的发布引发了关于AI可能性的巨大兴奋,其人类般的互动,由大量训练数据提供动力,给人以真正智能的错觉,这一突破使Altman在科技界成为了导师级人物。
Altman接受了这个角色,做出了关于AI未来的宏大宣言。2023年11月,在发布GPT-4 Turbo时,他声称这与他们正在开发的东西相比将显得“古雅”。他提到AGI在未来几年内是可能的,这些声明激起了我们可以称之为硅谷狂热信徒的巨大热情。
然而,这种狂热开始消退。Altman在2023年底被OpenAI董事会临时驱逐是第一个裂痕。随着我们进入2024年,他关于AGI临近的声明开始显得不那么令人信服——他开始强调需要进一步的突破。今年2月,Altman表示AGI可能需要高达7万亿美元的投资。
竞争对手缩小了与OpenAI领先的大型语言模型(LLM)之间的差距,许多人预测的稳定改进未能实现。为这些模型提供更多数据的成本增加了,同时它们频繁的逻辑错误和幻觉仍然存在,这导致Meta首席科学家Yann LeCun等专家认为LLM是一个巨大的干扰,并且是通往真正AGI的“旁路”。LeCun认为,虽然LLM在处理和生成类人文本方面令人印象深刻,但它们缺乏实现AGI所需的基本理解和推理能力。
这并不意味着炒作完全消失,在某些硅谷圈子里,AI热潮仍在继续,前OpenAI员工Leopold Aschenbrenner最近发表了一段热情洋溢的四小时视频,主张AGI可能在三年内到来。
但包括普林斯顿的Narayanan在内的许多经验丰富的观察者指出了这些论点中的严重缺陷。企业公司应采用这种更为稳健的观点。
在与企业AI领导者(如Honeywell、Kaiser Permanente、Chevron和Verizon等公司)的对话中,我一致听到AI实施的现实比炒作所暗示的要复杂和细微得多。
虽然领导者们仍对其潜力充满热情,但不要被AI正在如此迅速改进的想法所左右,以至于下一代技术将解决现有一代的问题。CapGemini的EVP Steve Jones表示,你必须现在就建立控制措施来很好地利用它:“无论未来五年中AI做出的决策是20%还是50%,这都不重要。”他在接受VentureBeat采访时说。关键是你的职业成功取决于该算法的成功,他说,你的企业依赖于你了解它的工作原理,并确保它能很好地运行。
“关于AGI的所有胡说八道正在发生,”他提到继续在硅谷开发者中流行的炒作,而这些人并未真正专注于企业部署,但AI“更多的是一种组织变革,而不是技术变革,”他说,补充道公司需要利用和控制LLM已经提供的真正基本进步。
大公司正在让模型提供商承担训练的重任,而他们则专注于为自己的特定目的微调模型,我们追踪的金融、健康和零售领域的领导者也在采用这种更务实的方法。
例如,在我与摩根大通、花旗银行、富国银行等银行的交流中,重点是使用AI增强特定的银行功能,带来诸如欺诈检测、风险管理和客户服务的实际应用。
在医疗领域,纽约长老会医院系统的AI运营医学主任Ashley Beecy博士提供了另一个大愿景被实际AI应用所锚定的例子。虽然她设想了一个了解患者所有信息的AI,但她说医院从更实际的应用开始,比如通过记录和转录病人就诊来减少医生的行政负担。
Beecy指出,更雄心勃勃的AI版本的大部分技术能力已经到位,但需要调整内部工作流程和流程才能实现这一点,或者她称之为“变革管理”。她承认,这需要大量的工作和测试,并且还需要国家健康组织的意见共享,因为这将需要超越她自己医院的更大结构性变革。
3. GPU瓶颈:基础设施现实
是否存在GPU瓶颈影响GenAI的扩展?我们的答案是:是的,但比头条新闻所暗示的更复杂。
为什么重要:企业公司需要战略性地规划其AI基础设施投资,平衡眼前的需求与长期的可扩展性。
AI开发的激增导致对专用硬件,特别是运行AI应用程序的GPU(图形处理单元)的需求前所未有地高涨。作为领先的GPU制造商,Nvidia的市场价值飙升至3万亿美元以上,成为全球最有价值的公司之一,这种需求创造了供应紧张,推高了成本并延长了这种关键AI基础设施的等待时间。
然而,这种瓶颈并不在所有AI应用程序中均匀分布。虽然训练大型模型需要巨大的计算能力,但许多企业用例主要集中在推理——运行预训练模型以生成输出。对于这些应用程序,硬件需求可能不会那么高。
Groq公司开发创新AI芯片的CEO Jonathan Ross认为,推理可以在非GPU硬件上高效运行。Groq的语言处理单元(LPUs)在某些AI任务上承诺显著的性能提升,其他初创公司也正在进入这一领域,挑战Nvidia的主导地位,有可能缓解GPU瓶颈。
尽管有这些发展,总体趋势仍指向不断增加的计算需求。正在训练先进模型并希望保持领导地位的AI实验室和超大规模云公司正在建设庞大的数据中心,其中一些加入了我称之为“50万GPU俱乐部”,这种军备竞赛激发了对量子计算、光子学,甚至用于数据存储的合成DNA等替代技术的兴趣,以支持AI的扩展。
然而,大多数企业公司并没有受到GPU可用性限制的困扰。大多数公司将使用Azure、AWS和Google的GCP云,让这些大玩家承担GPU建设的成本。
以Intuit为例,这家公司是去年率先认真采用GenAI的公司之一,该公司的AI副总裁Nhung Ho上周告诉我,该公司不需要最新的GPU来进行工作。“有很多旧的GPU运行得很好,”Ho说,“我们使用的是六七年前的技术……它运行得非常出色。”这表明,对于许多企业应用来说,创造性的解决方案和高效的架构可以缓解硬件瓶颈。
4. 内容权利与LLM训练:前方的法律地雷
网络上的所有内容都可以免费用于训练LLM吗?
我们的答案是:不行,这带来了重大法律和伦理挑战。
为什么重要:企业公司需要意识到在部署AI模型时可能存在的版权和隐私问题,因为法律环境正在迅速变化。
用于训练LLM的数据已成为一个有争议的问题,对AI开发者和企业用户都有重大影响。纽约时报和调查报道中心已对OpenAI提起诉讼,指控其未经授权使用内容进行训练,这只是冰山一角。
这场法律战突出了一个关键问题:AI公司是否有权在未经明确许可或补偿的情况下抓取和使用在线内容进行训练?答案尚不明确,法律专家建议,这个问题可能需要十年才能在法院中完全解决。
虽然许多AI公司为使用其服务的企业提供赔偿,但这并不能完全保护企业免受潜在的法律风险。随着AI驱动的搜索引擎和摘要工具的兴起,这种情况变得更加复杂。例如,Perplexity AI因总结付费墙文章而受到批评,导致福布斯指控其侵犯版权。
作为VentureBeat的创始人,我在这个辩论中有一定的利益。我们的商业模式与许多出版商一样,依赖页面浏览量和广告。如果AI模型能够自由地总结我们的内容而不为我们的网站带来流量,这将威胁到我们变现工作的能力,这不仅是媒体公司的担忧,也是所有内容创作者的担忧。
任何使用基于网络数据训练的AI模型的企业都有可能面临法律挑战。企业必须了解他们所部署的AI模型所使用数据的来源,这对于金融和银行公司尤为重要,因为这些公司在隐私和个人信息使用方面面临严格的监管。
一些公司正在采取积极步骤来应对这些问题。在训练方面,OpenAI正争先恐后地与出版商和其他公司达成协议。据报道,Apple已经与新闻出版商达成协议,使用他们的内容进行AI训练。这可能为未来AI公司和内容创作者的合作方式设立了一个先例。
5. GenAI应用:变革边缘,不是核心
GenAI应用是否在颠覆大多数企业公司的核心业务?
我们的答案是:还没有。
为什么这很重要:虽然AI具有变革性,但它目前在增强现有流程方面的影响更为显著,而不是彻底革新核心业务模式。
关于AI的叙述经常暗示即将发生全面的企业运营颠覆,然而,实际情况却有所不同。大多数公司通过将AI应用于外围功能而不是完全改革其核心业务来取得成功。
常见的应用包括:
• 客户支持聊天机器人
• 为员工提供的知识库助手
• 生成式营销材料
• 代码生成和调试工具
这些应用正在推动显著的生产力提升和运营效率,然而,它们还没有带来一些人预测的大规模收入增长或商业模式转变。
零售公司如Albertsons和AB InBev的高管告诉我,他们急切地寻找影响核心业务的方法,正在实验“大型应用模型”来预测客户的购买模式。在制药行业,人们希望AI能够加速药物发现,尽管进展比许多人预期的要慢。
Intuit也是一个有趣的案例。其业务基于税收和商业代码及术语,这更接近于LLM提供的强大语言应用,这解释了为什么Intuit迅速跃升,宣布了一年前推出的GenAI操作系统(GenOS),它将AI助手整合到TurboTax、QuickBooks和Mailchimp等产品中,然而,其AI使用仍然集中在客户帮助上,与其他公司使用AI的方式类似。
Apple的观点很有启发性,他们目前将AI视为一种功能,而非一款产品,这种立场反映了当前AI在许多企业中的状态:作为一种强大的增强工具,而不是独立的革命性产品。
StateStreet这家总部位于波士顿的大型银行的执行副总裁Caroline Arnold也持有这种观点,她认为GenAI主要用于提高生产力,而不是核心收入驱动因素。在我们三月份的波士顿活动中,她强调了AI的潜力:“GenAI让你能够以非常自然的方式与大量数据进行实时互动,构建场景……以一种传统方式需要更多时间才能完成。”
尽管该银行的新LLM注入的聊天机器人迅速超越了现有的帮助台,但也并非没有挑战。聊天机器人偶尔会提供“奇怪的答案”,需要进行调整。四个月后,State Street尚未公开发布其应用程序,这突显了企业在边缘采用GenAI的复杂性。
6. AI代理:下一个前沿还是过度炒作?
AI代理将成为AI的未来吗?
我们的答案是:是的,但有条件。
为什么这很重要?AI代理代表了自动化和决策领域的潜在飞跃,但它们当前的能力往往被夸大了。
AI代理的概念——即可以在最少人为干预下执行任务或做出决策的自主系统——吸引了许多科技界人士的想象力。一些人,如前OpenAI员工Leopold Aschenbrenner,设想了一个不远的未来,数以亿计的AGI智能AI代理将运行我们世界的各个方面。这反过来会将十年的算法进步压缩到一年甚至更短的时间内:“我们将迅速从人类水平发展到远超人类的AI系统,”他辩称。
然而,我与之交谈的大多数人认为这是一个空想。事实上,当前AI代理的状态比硅谷爱好者们一年前爆发兴奋时假设的要温和得多,当时围绕Auto-GPT(一个据称可以让你做各种事情的代理框架,包括创办自己的公司)的兴奋情绪爆发。尽管在客户服务和营销自动化等领域有一些有前途的用例,但完全自主的AI代理仍处于初级阶段,并面临着保持工作轨道的许多挑战。
其他新兴的AI代理应用包括:
• 旅行计划和预订
• 电商产品搜索和购买
• 自动化编程助手
• 金融交易算法
这些代理通常使用一个主要的LLM来协调过程,子代理处理具体任务如网络搜索或支付,然而,它们距离一些人设想的通用、完全自主系统还有很长的路要走。
Intuit 对 AI 代理的做法颇具启发性。Nhung Ho 透露,尽管 Intuit 已经建立了支持代理框架的基础设施,但已暂停在该领域的投资。Intuit 正在等待技术成熟,然后再将其全面集成到产品中。
这种谨慎的态度反映了更广泛的行业情绪。虽然 AI 代理显示出潜力,但它们还不够可靠或多功能,无法在关键角色中广泛采用。
结论:在 2024 年及以后的 AI 领域中航行
在我们探讨塑造 2024 年企业战略的六个关键 AI 争论时,一个明确的主题浮现出来:从炒作转向实际实施。企业领导者的关键要点如下:
1. LLM 竞赛已经停滞:专注于根据具体用例、成本效益和集成的便利性来选择模型,而不是追求“最佳”模型。
2. AGI 的炒作正在降温,实用 AI 正在升温:立即关注利用现有的 AI 能力,实现切实的业务成果。
3. 基础设施挑战需要创造性的解决方案:探索替代硬件解决方案,并优化 AI 工作流程,以最大限度地提高现有硬件的效率。
4. 法律和伦理考虑至关重要:仔细审查 AI 提供商,并了解其训练数据的来源,以降低法律风险。
5. 关注增强核心功能,而不是取代它们:寻找将 AI 集成到客户支持、员工援助和运营效率改进中的机会。
6. AI 代理显示出潜力,但尚未成熟:建立支持代理框架的基础设施,但要准备等待技术成熟后再全面实施。
真正的 AI 革命不是在追求 AGI 的研究实验室中发生,而是在全球各地的办公室中,AI 被集成到日常操作中。正如 Capgemini 的 Steve Jones 所说,“AI 更多的是一种组织变革,而不是技术变革。”
最有价值的 AI 实施可能不会成为头条新闻,它可能是每天为你的客户服务团队节省几个小时,或帮助你的开发人员更快地发现漏洞的问题。问题不再是“AI 会改变一切吗?”而是“我们如何利用 AI 更好地完成我们的工作?”这将决定未来几年 AI 领导者与落后者的区别。
企业网D1net(www.d1net.com):
国内主流的to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。