星标“医工学人”,第一时间获取医工交叉领域新闻动态~


为了使卫生系统从长远来看更具可持续性,应激励基于周密测试和现实世界验证的人工智能 (AI) 和数字技术。
在不远的将来,世界人口将比以前老得多。世卫组织最近的一份报告1估计,到 2030 年,六分之一的人将超过 60 岁。高收入国家的医疗保健系统已经承受着人口结构变化带来的压力,因为不断减少的工作年龄人口需要应对不断增长的老龄化人口。尽管过去20年大多数国家的预期寿命稳步增长,但健康预期寿命却没有以同样的速度增长。
在此背景下,政府和其他社会力量正在将注意力转向数字和计算工具,这些工具可以在不影响护理标准的情况下降低当前医疗保健系统的成本,甚至可能提高其覆盖范围和质量。最近的研究2-4让我们得以一睹未来的面貌,表明计算机视觉算法可以有效地充当乳腺癌筛查中的额外“眼睛”,从而提高病例检测的准确性。
我们相信,这种向“人工智能驱动”的医疗保健的转变将会发生,并且有可能带来广泛的公共利益。同时,我们相信,通过精心设计的临床研究以及人工智能算法和设备在现实世界中的循证实施,这些好处将更稳定、更快速地实现。我们渴望支持研究人员和临床医生的这一努力,临床实施将继续成为我们数字医学内容的首要任务之一。
人工智能的变革潜力并非没有风险。应如何评估人工智能干预措施或干预措施何时准备好迎接黄金时段的问题仍然悬而未决。在这方面,监管机构努力跟上该领域技术创新的步伐这一事实无济于事。目前,数字和计算工具仍然徘徊在医疗器械的灰色地带,通常不需要前瞻性的临床评估。对人工智能有害使用的担忧,特别是引入可能扭曲或阻止某人接受适当护理的算法偏差的担忧是真实存在的,如果扩大规模,可能会造成灾难性的后果。像这样可预防的挫折只会减慢人工智能工具在诊所的采用,从长远来看最终会增加成本。这样说来,实现人工智能巨大潜能的路在何方呢?
首先,前瞻性测试和验证至关重要。有大量证据表明人工智能模型存在普遍性问题,这意味着在一个数据集上训练的人工智能工具在接触新数据时可能无法提供准确的预测。例如,在整个大流行期间对为 COVID-19 筛查开发的数百个机器学习模型进行了方法学审查5,我们发现,由于样本量不足、缺乏外部验证和绩效评估不当,其中绝大多数都存在问题。人工智能模型在不同人群亚组中的表现也往往存在很大差异,通常有利于大多数人群,因为他们看到了最多的数据。这可能会给代表性不足的群体带来更糟糕的结果。但即使是所谓的完美模型也需要在其预期设置中进行测试,特别是当该工具应该与人类用户一起运行时。
其次,人们对人工智能如何在医疗保健环境中与人类互动知之甚少。例如,在最近的一项研究6中,展示了一种根据肾脏超声结果预测儿童梗阻性肾积水的算法的静默试验结果,使用该工具的用户根据对模型输出的期望改变了他们的临床决策行为,有效地从模型中学习。这与日益强大的大型语言模型(例如 ChatGPT 和基础模型)的出现尤其相关,这些模型的行为一般来说相对难以预测或解释。
第三,人工智能工具和设备的评估不应仅仅由操作测量来驱动,例如该工具是否提高了临床医生或整个卫生系统的生产力。尽管这些是一般地寻求更可持续的医疗保健系统的重要成果,但任何模型的评估都必须考虑到其他用户端的个人或群体的实际利益和潜在危害。
最后,人工智能有进一步增加或造成新的健康差距的风险。最先进工具的部署取决于大多数国家根本不存在的数字基础设施系统。随着新研究的设计和开展,重要的是要考虑在最需要的地方(包括资源有限的环境)实施人工智能干预的可行性。例如,智能手机在低收入国家的广泛使用使得基于应用程序的数字干预成为一种相对简单的方式,即使在偏远地区也可以提供分布式医疗援助和支持。研究已经表明这些应用程序在远程支持自行堕胎7和抗生素管理8 方面具有潜力。
这些观点中许多现已反映在《负责任的人工智能促进社会和道德医疗保健》(RAISE) 声明中9,这是一项基于共识的工作,由哈佛医学院生物医学信息学系组织,涉及向人工智能驱动的医疗保健过渡的许多关键利益相关者。我们还希望看到这些原则更频繁地反映在我们发表的研究设计中。
沿着这些思路,我们鼓励提交新的研究,为支持人工智能在医疗保健领域的实施提供强有力的证据,特别是在资源有限的环境中,无论是通过临床试验、前瞻性观察研究还是现实世界的实施和具有性价比的研究。我们邀请我们的作者继续与我们合作,支持解决这些差距的研究,并将人工智能作为医疗保健民主化工具向前推进。
参考链接:
参考文献:
*本文仅分享医疗科技前沿进展,不代表平台利益。如涉及版权问题,请联系我们删除。
END
编译 | 李升伟
排版 | 徐嘉阳
来源 | Nature Medicine
审核 | 医工学人
关注“医工交叉前沿技术”,可进入医工学人交流群

群主微信(申请时请备注个人信息)

本篇文章来源于微信公众号: 医工学人