微软本月早些时候宣布,其开发的AI诊断系统在复杂病例的诊断上超越了人类医生。
该系统名为MAI-DxO,使用两个机器人梳理患者的病史,与OpenAI的o3模型配合使用时,可解决85.5%的患者病例。尽管人类医生在诊断时不能上网搜索或与同事交流,但他们在相同病例上的平均准确率仅为20%,与该系统的结果相比差距巨大。
在微软公布结果后不久的一次深入对话中,微软负责AI的CEO穆斯塔法·苏莱曼分享了AI诊断系统如何将人类医生的诊断能力提升四倍,这对医学的未来意味着什么,以及这对社会是否是一个积极的趋势。
AI驱动搜索改变医疗问诊
亚历克斯·坎特罗维茨(Alex Kantrowitz):穆斯塔法,你好,很高兴再次见到你。首先,Copilot和必应现在每天要处理5000万次医疗咨询,这很好吗?
穆斯塔法·苏莱曼:这太不可思议了,因为我们通过搜索引擎让信息获取变得非常便捷和精简。现在,有了Copilot,回答更加具有对话性。你可以调整回答的语气,使其适合你的知识水平和专业水平,因此,越来越多的人向Copilot和必应咨询健康问题。
咨询的问题范围很广,包括癌症问题、家庭成员去世、心理健康问题,或者仅仅是皮肤出现皮疹。因此,问题种类繁多,但我们有一个非常重要的目标,就是努力提高消费者健康产品的质量。
与搜索引擎相比,聊天机器人收到的健康问题是否有所不同?
Copilot的回答往往更简洁,更符合提问者的个人风格和语气,这往往会鼓励人们提出第二个后续问题。因此,这更像是一种对话或咨询,就像你和医生可能进行的对话一样。所以,这与普通的搜索查询有很大不同。
微软双机器人诊断系统揭秘
说到对话,我们来谈谈微软新的AI诊断系统,它实际上由两个机器人组成,一个机器人充当患者所有医疗信息的守门人,另一个机器人则询问病史并进行诊断。你发现该系统在疾病诊断方面的表现优于人类。
没错。我们本质上想模拟AI作为诊断医生的行为,向患者提出一系列问题,梳理出他们的病史,进行一系列他们可能已经做过的检查,包括病理学和放射学检查,然后反复检查它所获得的信息,以提高其对患者实际诊断的预测准确性和可靠性。
我们实际上使用了《新英格兰医学杂志》的病例,这些病例有数百个,该杂志每周都会发布一个这样的病例,这对医生来说就像终极填字游戏。医生们要等到下周才能看到答案。他们需要回顾五到七页非常详细的病史,然后尝试找出实际诊断结果。
协调层是价值所在
我认为GenAI的一个好处是,它可以接收大量信息,然后得出答案,而且通常一次就能完成。那么,使用多个机器人进行梳理的好处是什么呢?
过去六个月左右,AI领域的重大突破是出现了思考或推理模型,这些模型可以在推理时查询其他智能体或查找其他信息源,以提高回答质量,它不会只给出第一个最佳答案,而是会咨询各种不同的信息源,这提高了它最终获得的信息质量。因此,我们发现,这个协调器使用了来自主要供应商的四种不同模型,实际上可以提高每个独立模型的准确性。总体而言,所有模型的准确性都得到了显著提高,大约提高了10%。因此,这是一个巨大的进步。我认为,随着AI模型逐渐商品化,所有的价值都将体现在最后的协调层和产品集成中,这就是我们在诊断协调器中看到的情况。
MAI-DxO诊断准确率比人类医生高四倍
那么,在标准大语言模型(LLM)的基础上,诊断准确率提高了10%吗?
是的,实际上,我们是将其与人类的表现进行对比的。我们让一群专业医生在这个模拟诊断环境中进行游戏,他们平均每五次才能答对一次,对吧?准确率约为20%,而我们的协调器准确率约为85%,因此它的准确率是人类医生的四倍。在我的职业生涯中,我从未见过人类表现与AI系统表现之间存在如此巨大的差距。
多年前,我参与了许多放射学、头颈癌和乳腺X光检查的诊断工作,我们的目标只是通过一次放射学检查来预测是否患有癌症,这是我们所能做的全部,而现在,它实际上可以给出非常详细的诊断,并通过这种交互式对话机制依次进行,这大大提高了准确性。
医生可以从AI的诊断思维中学习
如果医学领域发生的事情和初级代码领域发生的事情一样,会怎么样呢?在初级代码领域,人们使用Copilots学习编程,但当程序出错时,他们就很难弄清楚问题出在哪里。如果你是一名医生,如果你把一些思考工作外包给这些机器人,这会是个问题吗?
这不仅仅是给出一个黑箱答案,这就是为什么顺序诊断如此重要,因为你可以实时观察AI对病史提出问题、得到答案、形成新问题、得到答案、提出新问题,然后要求进行不同类型的检查、得到结果、进行解读,最后给出答案。
这种对话性质意味着人类医生可以实时跟进,并以一种非常透明的方式进行学习,这就像在大语言模型的黑箱中内置了一个可解释性机制,因为你可以实时看到它的思考过程。事实上,你看到的不仅仅是内心独白般的思维链。
我们实际上创建了五种不同类型的代理,它们都会进行辩论,我们称之为“辩论链”,它们相互协商,试图优先考虑某些不同的方面,比如成本或效率,智能体之间不同技能组合的协调正是使这一系统如此有效的关键。
AI可检测医生可能从未见过的罕见疾病
即使医生可以观察这一过程,但这也将他们在诊断中的角色从主动变为相对被动。与观察机器人对话相比,医生在主动阶段开展工作是否有一些好处?
我认为确实如此,但我仍然认为,这将成为医生学习他们从未遇到过的各种病例的绝佳教育工具。例如,我们上周使用协调器对《新英格兰医学杂志》最新案例研究中的病例进行了诊断,它正确地诊断出了在所有医学文献中仅出现过1500次的病例,这是一种非常罕见的长尾疾病,因此很少有医生有机会见到这种病例。因此,我认为,在实际应用中准确检测出这类疾病的能力将远远超过医生无法按照你描述的方式进行实践的风险。
我认为工具只是改变了你的工作方式,随着时间的推移,每个人都必须适应这一点,但这种工具的实用性无疑是非常有益的,我认为它值得这样做。
训练数据无法解释这一表现的原因
它能够做到这一点是因为病例都在训练数据中吗?即使它们在训练数据中,这真的重要吗?
我们与《新英格兰医学杂志》合作的部分原因是,该杂志每周都会发布一个全新的病例,这些病例甚至从未被数字化过。因此,毫无疑问,这些病例不在训练数据中。例如,上周的这个病例,它绝对不可能在训练数据中,因为它刚刚发表。因此,我们认为之前的所有病例也都是如此。所以我认为这没有任何可能性,这实际上是在进行判断抽象,它不仅仅是复现训练数据,而是根据它已经掌握的知识进行某种推理或思考。
为何协调器可能优于单一模型
与推理模型相比,你的系统并没有显示出比标准大语言模型更大的改进。是否存在这样一种可能性,即最先进的推理模型将学会如何做类似的事情,而你将不需要这种专门的排序就能实现类似的结果?
从长远来看,真正的价值在于你如何协调各种具有不同专业知识的不同模型。因此,这五个代理中的每一个都被提示和设计成具有不同类型的专业知识,然后让它们共同协商和集体推理,也许未来它们都会被整合到一个单一模型中,我不知道,目前看来并非如此,目前,协调器能够带来更大的收益。
我们还看到,例如,它还能够优化成本,通过避免不必要的检查来降低成本,而人类医生则做不到这一点,这是因为在推理时将成本因素纳入了协调器中,而这是在预训练或后训练中无法与单一模型相协调的。
在医学领域,成本是一个因素。你知道,你可以要求进行每一项检查,这样可能会更好地诊断病情,但在今天这并不现实。有趣的是,观察机器人决定进行哪些检查,然后以比典型医生更低的成本得出诊断结果,这很有意思。
更多的检查也会让人们感到焦虑,因此,这不仅仅关乎成本,还关乎优化患者体验。
通过更智能的AI降低成本和检查焦虑
那么,它是如何决定进行哪些检查以及如何优化成本的呢?
该模型试图用最少的检查次数得出最佳诊断,该模型能够更广泛地了解哪些检查结果往往与哪些特定的诊断结果相关。因此,由于它见过的病例比任何一个人类医生都多,这表明它能够更好地做出判断,在这种情况下,根据它已经了解到的患者病史,判断需要进行哪些必要的最少检查次数,以获取下一个信息片段,从而能够继续诊断并使其更加准确。
当前局限性和长尾用例
我能告诉你另一件让我惊讶的事情吗?这个机器人似乎在更常见的诊断类型上遇到了困难。你认为它只是在等待诊断那种罕见病例吗?所以它忽略了这可能只是胃痛的事实?
我们还没有将它应用于你日常遇到的普通全科医生或初级保健医生的场景,比如皮肤出现皮疹或膝盖疼痛,因此这往往是复杂病例中更长的长尾部分,但不用说,训练数据中这方面的信息较少。我们知道,如果有更多的训练数据,模型的表现会更好。因此,与在长尾病例上的表现相比,该模型在初级保健环境中的表现几乎肯定会更好。
AI无法取代共情和人类引导
你们围绕这项研究发布的消息称,医生的临床角色“远不止于做出诊断,他们需要以AI无法做到的方式,在模棱两可的情况下为患者及其家属指明方向并建立信任”。
我能从另一个角度来看这个问题吗?如果你每天都和机器人交谈,你可能会比每年只见一次的医生,甚至是新专家更信任它。那么AI是否也有可能承担部分这类工作呢?
它确实有可能承担部分这类工作,当然,我希望有一天它能够胜任这类工作,但没有什么能取代你在现实世界中面对高度焦虑和恐惧时与他人建立的联系,当你面临人生中最大的挑战之一,前方有一个重大诊断结果,或者当你只需要日常的定期治疗和护理时。因此,这将继续是医生的角色,希望他们能有更多时间与患者面对面交流。
医生的角色在演变,而非消失
那么,未来医生将成为这些AI机器人输出的审核者吗?他们将成为引领患者走过治疗之旅的守护者吗?
仍然需要专业的人类医生进行大量的判断,这既是诊断的一部分,也是对患者进行判断的一部分,考虑各种因素,帮助患者决定,既然我现在知道自己有了这个诊断,我想接受什么治疗,何时接受治疗,以及其中的利弊是什么,这将需要大量的判断,因此,这不仅仅关乎人与人之间的联系和亲力亲为,它还需要与收到诊断的患者进行深入共情的思考,以规划他们的治疗过程。
超越医疗保健:任何领域都可应用协调式AI
你认为这种系统还可以应用于哪些其他职业?
这些协调器的基本方法是,它们调整不同的AI以发挥非常具体的作用,然后让这些AI相互协商,这显然适用于许多不同的环境,无论是未来的商业还是政府领域。因此,我认为,如果这一发现成立并适用于其他领域,我认为它将非常有前景,因为这也是我们人类作为一个物种共同工作的方式,对吧?我们通常在做出决定时会广泛咨询,而且往往在得出最终结论之前甚至会达成共识。因此,这与人类世界有很多相似之处。
MAI-DxO在临床环境中的下一步计划是什么?
最后,这一系统尚未在医院环境中广泛推广,因此,对此感到恐慌的人可以放松了,但这是最终目标吗?它是一种教育工具,还是会在未来几年实际集成到医疗中心和医院中?
目前,这只是早期研究,我们正在研究如何最好地部署它,但我认为,我们能够在整体诊断上将人类表现提升四倍,同时显著降低成本,而且速度极快,这让我感觉这是迈向真正的医疗超级智能的步伐,我们希望尽快、尽可能广泛地提供这种能力,包括为我们每天5000万次的健康查询提供服务。因此,我们的目标是:以尽可能安全的方式,尽快将其提供给消费者。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。