医工前沿|柳叶刀·数字健康:关于影像AI临床评价的声明

前言

/

《医工前沿》是医工学人收集、整理与发布的医工交叉领域前沿研究动态,来源包括Science,Nature,The Lancet,IEEE,Advanced Materials等知名期刊及其子刊、合作刊等。医工交叉前沿动态的发布,有助于工程研究人员和临床医生迅速了解该领域学术前沿研究的最新现状,帮助医工领域研究者及从业者获得研究启发及转化可能。

评论文章 | 柳叶刀·数字健康

世界各地的政府和医学协会,包括U.S. FDA(美国食品和药物管理局)、MHRA(英国药品和保健产品监管局)、RCR(皇家放射科医师学院)和ESR(欧洲放射学会)都认为,与人工智能(AI)相关的健康技术的出现将是我们有生之年医疗服务提供方式的最根本变化。在对医学成像的需求空前的时代,当医院因人员短缺而苦苦挣扎时,人工智能工具可以提供解决方案。


传统上,医学图像的解释工作主要由经过培训及有一定经验水平的医师完成,这个过程往往是定性的。例如,在肿瘤相关的治疗中,勾勒出感兴趣的三维体积(例如肿瘤或邻近结构)的轮廓是规划放射治疗的关键步骤。手动完成时,此过程非常耗时,并且会受到医师之间差异的影响。

在过去十年中,高性能计算的进步已将医学图像转换为高维数据,这些数据可以通过数字方式挖掘以提取更多的信息。这些进步与复杂的人工智能算法的发展相吻合,与传统放射学相比,这些算法以自动化、几乎实时和高度一致的方式执行任务。人工智能工具擅长医学图像分析——它们可以自动检测放射图像中的复杂异常模式,并可以提供与疾病相关的定量信息。在临床研究环境中,这些工具已经应用于筛查、疾病检测、病变分类、诊断、预后评估、增进我们对基本疾病过程的理解,并提高我们评估治疗反应的准确性。


然而,这些技术可能不是灵丹妙药,因为面向临床环境的研究到应用的转化是一项复杂的技术、伦理和监管挑战。这些问题中最基本的问题与验证人工智能工具在临床任务中的性能有关。在研究中,通过使用人工智能算法与基本事实(通常由人类生成)之间一致性的统计指标来定量评估人工智能工具的性能。定量指标是客观的,通常通过统计软件易于使用,并且不需要额外的临床专业知识。但是这种仅定量指标方法存在问题。首先,仅定量指标的性能评估方法可能无法明确指示AI算法在临床实践中的性能;在某些情况下,这种评估可能会低估具有真正临床价值的人工智能算法,而在其他情况下,最令人担忧的是,它可能会高估其临床效用。这种误解可能导致开发人员浪费大量时间,生产出没有临床应用潜力的工具。其次,引用的定量性能通常在私人、回顾性,有时甚至是计算机数据集上进行评估。第三,医疗保健专业人员参与应用仅定量指标方法是被动的,因为仅基于定量指标方法的这些特征会阻碍透明度,导致医疗保健专业人员缺乏信任,最终影响患者和公众对这些设备的信任。

基于人工智能的轮廓工具(也称为分割工具)从研究到临床环境的转化就是这样一个例子。一个强大而可靠的自动分割工具将通过自动分割医学图像来具有临床实用性,这是放射治疗计划和预后放射生物标志物开发中必不可少且耗时的步骤。目前,定量指标,包括基于重叠的Dice相似系数,是衡量基于AI的细分工具性能的最常用方法。但是,此方法不会识别或分类算法可能产生的错误。这种缺乏透明度可能会掩盖严重的错误,或者允许隐藏糟糕的算法性能。

此外,大多数研究工作都集中在开发产生高的Dice相似系数分数的算法,而不是创建临床相关且可用的分割工具。临床使用的某些方面(例如,人工智能工具与临床医生的合作程度如何,以实现更快、高质量的细分)在当前仅基于定量指标的评估框架中没有被考虑。最后,许多开发细分工具的团队没有临床专业知识,这意味着领域专家显而易见的系统错误可能会被忽视。

我们应该如何更好地验证成像AI工具,增加对其性能的信任,并最终帮助临床实践的采用?我们认为答案的一个重要部分是让医疗保健专业人员以积极、结构良好和可重复的方式参与基于人工智能的工具的开发和验证。人工智能在其他领域的转化表明,让领域专家(其工作受到算法的影响)参与人工智能工具的早期开发会增加对工具的信任。此外,将这些专家的定性见解与适当选择的定量指标相结合是建立实用程序并进一步建立用户对设备的信任的好方法。

CONSORT-AI和SPIRIT-AI都强调了将基于AI的干预措施的开发与实际临床需求保持一致的重要性,以便更好地将其整合到临床实践中。然而,对于卫生保健从业人员应如何参与这一进程,没有明确的指导。医学成像中的放射学质量分数和人工智能清单提高了基于人工智能的医学图像分析研究的严谨性和透明度,确保研究方法合理,并适当解决潜在的偏见和局限性。然而,这两个清单都没有评估临床领域专家在模型创建期间是否是研究团队的一部分。

我们建议,未来基于人工智能的医学图像分析开发黄金标准必须默认让临床领域专家发挥积极作用。

在验证基于人工智能的医学成像工具的性能时,应将工作受该工具影响的医疗保健专业人员的定性评估与既定的定量指标相结合。这种参与将提高开发人员对工具优势和劣势的理解,并有助于临床医生的信任。为了促进这种验证,需要定义明确的评估框架来标准化定性评估并最大限度地向开发人员提供反馈。这些框架应该是结构清晰、半定量和可重复的。它们应包含适合该工具的临床应用和目标人群的明确抽样策略,并应单独评估人工智能的表现,并作为医疗保健专业人员的助手。这些框架应在临床实施之前使用,并在实施后频繁使用,以确保性能得到维持并防止自动化偏差。

医学图像分析界以及相关利益团体和社会应带头制定框架,以指导和构建医疗保健专业人员对人工智能工具的评估。该策略将使安全、有效和值得信赖的人工智能技术能够应用于临床工作流程。

▼扫描下方二维码阅读全文

*中文翻译仅供参考,一切内容以英文原文为准。如涉及版权问题,请联系我们删除。

END

编辑 | 罗虎

来源 | The Lancet Digital Health

审核 | 医工学人

医工学人简介

医工学人是在医疗科技创新与医工交叉背景下成立的多高校学生学术组织。旨在建立医学、工程学领域研究者的对话渠道,创造交流分享医工交叉前沿技术的优质平台,推动医疗科技创新与医工交叉融合。

目前组织内共有五百多位来自复旦大学、西安交通大学、上海交通大学、清华大学、浙江大学、中国科学技术大学、各高校附属医院等30余所重点高校、医院及科研单位医工学科相关的医生、学生、专家学者等。欢迎志同道合的你加入我们!

<扫码添加社群管理人微信>

本篇文章来源于微信公众号: 医工学人

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注