作为医生的我使用 ChatGPT 进行临床诊断的经历

得知ChatGPT已经成功“通过”美国医学执照考试的消息后,我很好奇它在现实医疗情况下的表现如何。作为利用人工智能来提高医疗质量和效率的倡导者,我想看看当前版本的ChatGPT如何在我的实践中充当诊断工具。

因此,在上周紧急科临床班结束后,我将35到40名患者病史信息进行匿名化处理——基本上是每个人的病史的详细描述和导致他们前来急诊科的症状,并输入到ChatGPT中。我使用的提问语句结构是“这位患者来急诊科的鉴别诊断是什么(在此处插入患者现病史笔记)?”

结果非常惊艳,但也相当令人不安。

OpenAI的聊天机器人处理医疗诊断相当不错,它能够详细回答很多常见诊断——只要我提供的信息准确、详细。例如,正确诊断一个患有保姆肘的患者需要大约200个字,而确定另一个病人眼眶壁破裂的诊断则需要我提供全部600词的HPI。

对于大约一半的病人,ChatGPT会提出六种可能的诊断,而“正确”的诊断——或者至少是我在完整的评估和测试后认为正确的诊断——会在ChatGPT建议的六个诊断中之一。这样的表现不错。但是,在急诊室这样的背景下,50%的成功率也不算好。

ChatGPT最差的表现发生在一个21岁的女性患者身上。她因右下腹部疼痛来到急诊室。我将她的病史提供给ChatGPT,它立刻回答说可能是阑尾炎或卵巢囊肿等多种可能性。

但对于这位女性,ChatGPT漏诊了一个相当重要的诊断。她患上了异位妊娠,即畸形的胎儿在女性的输卵管而非子宫内发育。如果诊断过晚,异位妊娠可能是致命的,导致内出血而死亡。幸运的是,我们能够立即将患者送入手术室进行治疗。

值得注意的是,当这位患者在急诊室看到我时,她甚至不知道自己怀孕了。这种情况并不少见,通常只有在进行一些温和的询问后才会浮出水面:

“你有怀孕的可能吗?”

有时患者会回答:“不可能。”

“但你怎么知道?”

如果这一问题的回答不提及宫内避孕器或特定的医疗条件,那么更有可能这位病人实际上是在表达她不想怀孕的任何原因(如婚外情、家庭纠纷或其他外部因素)。

再次强调,这并不是一个罕见的情况;在急诊室发现的怀孕病例中,约有8%的女性报告称她们没有发生性行为。

但是,通过ChatGPT的诊断,我注意到它的回答中没有一句话暗示我的病人怀孕了。它甚至不知道该提出这个问题。

另外感到恐惧的是,无数人已经开始使用ChatGPT来自我诊断,而不是去看医生。如果我的这个病人这样做了,ChatGPT的回答可能会导致她的死亡。

ChatGPT还误诊了几位患有危及生命的疾病的患者。它正确地指出其中一位患者患有脑肿瘤,但错过了另外两位也患有肿瘤的患者。它将另一位患者的躯干疼痛诊断为肾结石,但错过了患者实际上患有主动脉破裂的事实。(并在我们的手术台上死亡。)

简而言之,当我提供完美的信息并且病人有典型症状时,ChatGPT作为诊断工具表现得相当不错。

这可能是为什么ChatGPT“通过”了医学执照考试中的病例小片段的原因。这并不是因为它“聪明”,而是因为考试中的经典病例已经存在于它的数据库中,有确定性答案。ChatGPT以一种自然语言格式迅速呈现答案(这是真正令人印象深刻的部分),但在此之下是一种类似于Google搜索的知识检索过程。而大多数实际的病例并不是经典的。

我的实验说明了任何医疗接触的绝大部分都是确定正确的病人叙述。如果有人进入我的急诊室说她的手腕疼痛,但不是由最近的事故引起的,这可能是患者的孙子跌倒后的心理反应,或者可能是性病,或者其他原因。医学的艺术在于提取所有必要的信息,以创建正确的叙述。

ChatGPT仍然可以作为医生的助手,并在治疗期间自动阅读我的病人病历并提出不同的诊断。但我担心这可能会导致更糟糕的结果。

如果我的病人病历中没有我还没有问过的问题,ChatGPT的输出将鼓励我继续错过那个问题。就像我的年轻女病人不知道她怀孕了一样。如果我没有立即想到可能发生的异位妊娠,ChatGPT将继续强化这个遗漏,只能反映我认为显而易见的事情——像世界上最危险的谄媚者一样热情地验证我的偏见。

这并不意味着AI在医学领域没有可用的地方,因为它确实有。作为一个人类医生,我受限于个人能够治疗的患者数量。我预计在我的一生中会看到大约10,000名患者,每个人都有独特的身体质量、血压、家族史等等——我在我的心理模型中跟踪的巨大特征种类。

每个人的健康与之相关的变量不计其数,但作为一个人类医生,我在有限的治疗窗口中专注于那些在历史上通常最为重要的因素。

例如,如果我查看一个患者的血液化验报告,发现高水平的糖化血红蛋白,那么我就诊断他们很可能患上了糖尿病的早期阶段。但是如果我能够跟踪关于患者健康的无数变量,并将它们与在所有数百万变量方面都与患者相似的其他人进行比较,而不仅仅是基于他们的糖化血红蛋白水平呢?

也许我就能认识到那另外的10万名患者们开始吃更多的花椰菜时,所得到卓越的结果。这就是AI可以发挥作用的空间,不知疲倦地处理我所治疗的每个患者以及每个其他医生治疗的所有其他患者的这些无数特征,给我们带来深刻、广阔的洞察力。

AI最终可以帮助做到这一点,但首先需要摄取成千上万个患者数据集,其中包括这些许多特征,例如患者所做的事情(例如服用特定药物)以及结果。

与此同时,我们迫切需要来自硅谷和大众的一个更为现实的视角,关于AI现在能够做到什么和它的许多、往往危险的限制。我们必须非常小心,以避免像ChatGPT这样的程序夸大期望值,因为在人类健康的背景下,它们可能会导致生命受到威胁。

由 Dr. Josh Tamayo-Sarver 发表于 FastCompany 杂志。他在当地社区的急诊科临床工作,并是 Inflect Health 的创新副总裁,该公司是一个为健康科技孵化器的创新公司。

4月6日更新,Tamayo-Sarver 博士给出了回应:

感谢您的深入思考和评论。

首先,我使用的是ChatGPT 3.5,但我认为一个更基本的问题是关于大型语言模型的工作机制,这对我来说是一个更大的发现,而不是它的训练程度或专业性。

我不确定大型语言模型方法会成为医疗环境中解决问题的答案。大型语言模型AI实际上只是注意到单词之间的关联性,并没有潜在的概念模型。因此,一些惊人的行为已经出现,我每天都在使用它来完成非临床任务。

考虑到单词联想方面的训练,似乎 LLM 是围绕知识检索和呈现设计的。在医学诊断用例中,第一步是创建一个明确表达患者状况的问题陈述,这需要大量的问题解决,需要一个概念模型,而LLM没有这个。

但是,我已经看到基于知识图谱的AI系统在这方面做得非常好。一旦患者问题的陈述清晰明了,那么它就成为了一个知识检索问题,我期望ChatGPT和其他大型语言模型系统在此方面表现出色。

我可以想象未来会有不同的AI模型,通过不同的技术构建,合作解决目前看来非常复杂的问题。

这只是我的一个观点 - 尽管有很多 LLMs 的行为是出乎我意料的。