JAMA | MIT专家:人工智能开发人员应该了解部署临床工具的风险

星标“医工学人”,第一时间获取医工交叉领域新闻动态~

前言

/

本次对话是一系列采访的一部分, JAMA 主编 Kirsten Bibbins-Domingo博士和专家嘉宾围绕人工智能 (AI) 和医学快速发展的交叉领域探讨了一些问题。

“应用于医疗保健领域的人工智能应该被较为完善地设计,使得它在不同的环境和不同的人群中都有较好的实用性”,麻省理工学院(MIT)的Marzyeh Ghassemi博士这样说,他的工作专注于创建“稳健、私密和公平”的“健康”的机器学习(ML)模型。Ghassemi目前是麻省理工学院电气工程与计算机科学系和医学工程与科学研究所助理教授,她表示人工智能生成的临床建议呈现给医生的方式对于减少危害也很重要,并且她认为开发人员应该意识到,他们对有朝一日可能会受到其工具影响的临床医生和患者负有责任。


JAMA主编Kirsten Bibbins-Domingo博士最近与Ghassemi就“道德机器学习”、计算机科学家决定在自己的医疗保健中选择退出人工智能等话题进行了交谈。


为考虑清晰易读和篇幅长度,以下采访经过编辑。

Bibbins-Domingo博士:你有一个研究实验室,Healthy ML。它专门研究人工智能中的偏见,您对其在临床实践中的应用特别感兴趣。我很想听听你是如何进入这个非常具体的领域。

Ghassemi博士:在我攻读博士学位时,我们发现[机器学习]模型往往不适用于所有群体。这确实为我们今天在我的实验室所做的工作提供了信息,重点是我们如何确保开发的模型能够稳健地工作。如果你考虑稳健性,这可能意味着它在新环境中或不同类型的人中都能很好地工作。

Bibbins-Domingo博士:您如何看待模型在一种环境中与另一种环境中,或在一组人与另一群人中表现不佳的原因?

Ghassemi博士:我试着在所有模型的开发过程中思考这个问题。不仅仅是在医疗保健方面,这适用于任何可能在任何面向人类的环境中开发和部署的任何机器学习模型。选择一个问题,收集一些数据,定义一个标签,开发一个算法,然后部署它。在该流程的每个部分中,模型的性能都有可能不佳的原因。对于问题选择,我们选择资助什么和我们选择做什么往往是有偏见的。我们倾向于关注那些容易解决的问题,比如说有更多现成的数据可以与不同的社会地位,或特权,或者只是资金更倾向于分配相关联。

例如,不成比例地影响女性的疾病往往没有得到充分研究。如果我们从这些人类来源收集数据,它可能会因为人类之间的互动方式而产生一些偏见。仅仅通过人为流程收集数据,你就会遇到一些潜在的性能问题。我们可能希望机器学习模型能够复制我们现在看到的最好的医疗实践,但是如果我们从数千家医院中随机抽取数据样本,然后说,“按照普通医生平均每天的表现方式执行”,我们可能会得到一些我们不想扩展涉及的行为。

当我们定义一个标签时,偏见就会从另一种方式注入学习过程。这是一个真或假的(true-false)标签。我们从不将其与正在做出的选择或正在应用的人类规则联系起来。当你用这种描述性方式收集标签,然后训练机器学习模型时,所有这些机器学习模型都会变得更加苛刻。它们的假阳性率要高得多。

Bibbins-Domingo博士:你用了合乎道德的机器学习(ethical machine learning)这个术语。我希望您定义该术语对您意味着什么,并帮助我们在医疗实践的背景下理解它。

Ghassemi博士:我认为,作为一名技术人员,我认为合乎道德的机器学习意味着认识到你对最终用户的责任,这些责任可能会受到你正在开发的模型和你发布的技术的影响。我认为专业协会有许多道德框架——针对工程师的、医生的、以及与人互动的不同类型的个体的。

这在计算机科学培训中不是标准的。它不在我的计算机科学课程中。我们没有一套具体的规则、规定,甚至没有原则。现在,我们看到许多像麻省理工学院这样的项目正在加紧努力,并认识到计算机科学影响的人与许多工程学科影响的人一样多。但我认为,我们正在该领域进行一些追赶,人们开始认识到这些选择会产生影响。

Bibbins-Domingo博士:那么,这对设计用于临床实践环境的算法意味着什么?你只需要更加了解和理解这种合乎道德的机器学习吗?在你开发一个特定的模型时需要和用户交谈吗?哪些类型的流程使我们真正专注于最终用户(在这种情况下是患者)?什么样的团队,什么样的流程,什么类型的事情让我们能够达到这样的目的?

Ghassemi博士:我认为我们需要改变技术人员、技术协会和技术系统。我们需要与那些与我们合作的人交谈并了解他们的需求,不仅仅是要了解数据是如何收集的,还要了解如何部署模型以及这种部署的风险是什么。

我认为这里的问题不仅在于我们正在使用机器学习和健康,还在于我们在技术监管相当宽松的领域中使用了这个非常强大的工具。我们正在将这个额外的工具添加到一个目前没有太多监管的设置中,我认为监管要赶上工具的使用是一件困难的事情。如果你对机器学习、模型学习杀死的女性多于男性、在女性中的表现比男性更差而感到不安,但从数据中可以了解到更多的女性死于这个过程,也许我们应该尝试解决这样的潜在问题。与其说,“我很生气,因为模型已经学会了这个东西”,不如让我们利用它学会了的事实来解决潜在的问题。

Bibbins-Domingo博士:你说的是一个重要的问题,我们正处于一个这项技术快速发展的环境中,无论是在医疗保健中采用任何类型的机器学习、人工智能方法的能力和热情。我们也知道这些模型可能会受到偏见的影响。那么,在您看来,一旦模型开发或部署,我们应该如何考虑监管?

Ghassemi博士:我完全同意你的看法,这里的理念似乎是先于监管进行部署,我认为这不是思考技术在医疗保健环境中的作用的正确方式。我要说的是,我认为FDA(美国食品和药物管理局)已经做了非常出色的工作,试图建立可以对机器学习模型进行审计的系统。我认为可以进行一些改进,就像任何系统一样。

实际上,我是航空业与不同联邦机构建立的多臂监管体系的忠实拥护者,这些机构相隔数十年,专门用于确保现有的飞机安全,并且对飞行员进行使用技术的培训,并且有关于不同航空公司如何沟通的标准,航空公司和航空公司对飞行的乘客负有责任。

我认为我们需要同样类型的监管,这种监管被公认为不是关于责任或责任,而是关于确保安全,拥有安全的空间和安全文化。此外,还有一定程度的监督,人们自愿接受一定数量的培训,以便能够在将技术集成到他们的环境中之前很好地使用技术。

我确实想解决这样一个事实,即与航空业不同,航空业进行了大量的人机交互最终用户研究,以弄清楚如何最好地向处于压力情况下试图做出决定的人展示信息,我们还没有在机器学习的人机交互或其他技术加医生环境中进行大量此类研究。我们实际上不知道如何最好地向医生提供信息,顺便说一句,这些信息有时可能是错误的,因此他们在信息正确的时候能够很好地使用它,但是当信息错误时他们不会因此产生不成比例的偏见。到目前为止,我们所做的工作表明,确保医生不会被有偏见的信息误导的关键或关键之一是确保这些信息是描述性的。

Bibbins-Domingo博士:那是因为我们相信它是一个人工智能模型,它是数学,因此我们应该按照它所说的去做吗?

Ghassemi博士:根据非常出色的研究人员的其他工作和我的实验室所做的工作,我认为这是两件事的结合。第一,这是一种自动的偏见。很长一段时间以来在临床情境中已经有充分的证明,如果有预填充的默认值,你更有可能使用它。

另一个正是你在说的,我们认为这是算法的过度依赖。人们假设他们有一个像机器人、人工智能或算法这样的系统,无论它是什么,都可以访问比他们更多的信息,或者很清楚在这种环境中做出错误决定可能遇到的风险。

在许多其他记录在案的环境中,临床医生得到了不正确或糟糕的建议。即使他们意识到该模型可能会给他们提供不正确或糟糕的建议,他们仍然表现出同样的自动化和过度依赖偏见。因此,当我们考虑提供建议的方式时,我们需要非常小心。

Bibbins-Domingo博士:我很高兴你提出这样的观点,即在其他领域,计算机和人类之间的历史要长得多,或者培训水平要低得多,比如航空业,人们非常关注信息的呈现方式。很明显,我们需要更多地了解这一点。这让我想起了几个月前我们在《美国医学会杂志》(JAMA)上发表的一项研究,关于解释模型的想法是否有助于让临床医生更好地了解模型可能出错的地方。它表明,有偏见的模型产生了错误的结果,并且可解释性并没有减轻临床医生误入歧途的程度。我认为这有点说明了你在这里所说的,以及也说明了不仅仅是假设解释模型是如何构建的会帮助我们不走错路是多么重要。

Ghassemi博士:一段时间以来,可解释性方法会使模型变得不那么公平,因为从根本上说,它们是近似值。如何使模型可解释?你让它更简单,并且因此你必须近似一些东西。我们之前发现,这些近似值往往对少数群体的影响大于多数群体。这是有道理的。如果你需要近似一些复杂的非线性边界,并且有一个群体你必须在建模时做得不太好,那么它可能是占据较小空间的群体,对吧?因为这会对你的表现产生较小的影响。

因此,在我们评估的许多环境中,可解释性方法不仅会使模型变得不那么公平,而且《JAMA》上的这项研究表明,可解释性有时甚至会增加过度依赖。因为如果你只有一个数字,或者你只有一个描述,它并没有真正缩短你做出决定所必须做的批判性思维。但是,如果你让它变得简单,你开始参与过度依赖和自动化偏见,它告诉你该做什么,它解释了原因,我认为这就是我们开始看到这些偏见真正变得非常强烈的地方。

Bibbins-Domingo博士:这太有趣了。建模很复杂,但人类和人类行为也很复杂。

Ghassemi博士:老实说,我认为这是最困难的事情。这是一个非常复杂的交互系统。我把这个与航空业做了一个松散的类比。但是这不是航空。在航空业,你有一架载有数百名乘客的飞机。一个人的结果就是所有人的结果,一个人安全着陆那么他们都安全着陆。而这在医疗保健中并非如此。所以,我认为我们需要做的还有很多。还有很多研究需要做。我们真的缺乏这样做的骨干,因为即使在机器学习之前,我们的临床风险评分也对女性不起作用。

当我举这些例子时,我总是告诉人们,有时他们会说,“好吧,临床风险评分不可能对每个小亚组都有效。很难从少数族裔那里收集到。”妇女不是少数。我们是地球的一半,有时甚至更多。因此,事实上,临床风险评分在历史上没有机器学习,不需要人工智能,这在地球上是行不通的,我认为这说明了这样一个事实,即我们需要了解如何在医疗保健系统中使用技术,即使我们没有机器学习,也应该以一种不会增加不平等的方式使用技术。

Bibbins-Domingo博士:好的。那么,你使用什么人工智能工具呢?

Ghassemi博士:我觉得我必须在这里说得很清楚,因为我对一件非常奇妙的事情有两种截然不同的看法。和许多人一样,当 ChatGPT 和其他版本的 GPT 发布时,我对技术成就印象深刻。我已经非常广泛地谈到了我对它在临床环境中被用于特定事物感到多么不高兴。我不认为这是它的最佳用途。

但我想说的是,如果你写了一笔资助,或者你有一个伟大的研究想法,通常你必须用 7 种不同的方式总结它:给普通读者的 100 字摘要,给科学官员的 200 字摘要,给 300 字……我喜欢使用 GPT 模型为我所做的工作的特定受众进行特定长度的总结。

Bibbins-Domingo博士:这是一个很好的例子。但是让我给你一个机会,也许可以扩展一下你以前想要激励我们以后不使用它的东西。你会避免使用哪些人工智能工具,或者你会立刻不使用什么人工智能工具?

Ghassemi博士:我选择退出几乎所有人工智能在健康环境中的使用。无论是对我自己还是对我的家属来说,因为我很清楚研究中的工具不太可能对少数族裔女性有效,其中一些是我自己的研究。

Bibbins-Domingo博士:当有人说,“好吧,我们永远不会为像你这样的人设计模型,因为你不允许我们使用像你这样的人的数据”,你会怎么说?

Ghassemi博士:我曾与少数族裔社区交谈过,并告诉他们,“请让我使用你的数据。我的模型不起作用。它对你的人口表现会很差。”这就是为什么临床模型对这么多人来说如此糟糕的原因,因为有时是故意的,只研究了某些群体。我要说的是,我正在做的研究将经过同行评审,通常是残酷的,并在某个场所发表。然后,如果我想部署它,或者如果不是我的话,我希望任何部署者,都会经过严格的审批流程,以确保该模型在部署之前是健壮的。

我认为,使用数据来发现和理解机器学习和健康的局限性与自动化效率指标、决策或只需要为电子医疗保健记录获取的输出之间存在根本区别。我同意将我的数据用于机器学习论文。但我不希望用它来预测应该为我分配多少护理,或者我应该获得哪些药物,或者我可以转介给什么样的医生,因为我知道所有这些决定都是有偏见的。

Bibbins-Domingo博士:我认为您的解释有助于我们了解我们在不断发展的技术中所处的位置,这种技术既非常强大,又具有已知的局限性和偏见。

▼参考文献

Anderer S, Hswen Y. AI Developers Should Understand the Risks of Deploying Their Clinical Tools, MIT Expert Says. JAMA. 2024;331(8):629–631. 

END

编辑 | 徐嘉阳

来源 | JAMA

审核 | 医工学人

关注“医工交叉前沿技术”,可进入医工学人交流群

群聊负责人微信

推荐阅读

医工学人社群招募

医工学人公众号征稿须知

医工学人2023最具看点文章回顾

Nature Methods|2023最受关注的研究

点击关注医工学人

本篇文章来源于微信公众号: 医工学人

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注