诊断|为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远

机器之心报道
编辑:小舟、杜伟

近年来 , AI 在医疗诊断中的应用受到了越来越多的关注 , 也出现了一些实际的应用场景 , 如药物筛选、AI 诊断 。 但似乎正确的 AI 医疗诊断难以实现 , 这是哪些原因造成的呢?本文探讨并汇总了人们对 AI 医疗诊断的一些独到见解 。

诊断|为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远
文章图片

近年来 , AI 在医疗诊断中的应用受到了越来越多的关注 , 也出现了一些实际的应用场景 , 如药物筛选、AI 诊断 。 但似乎正确的 AI 医疗诊断难以实现 , 这是哪些原因造成的呢?本文探讨并汇总了人们对 AI 医疗诊断的一些独到见解 。
AI 与医疗融合作为近年来兴起的一种新领域 , 具有巨大的发展潜力 。 用于医疗的 AI 算法正在不断涌现 , 在看到领域前景的同时 , 我们也发现了一些问题 。
例如 , 为了协助医生筛查潜在新冠患者 , AI 领域的研究者们研发了多种机器学习算法 , 以根据胸部 X 光片和 CT 图像快速准确地检测和预测新冠肺炎 。 然而 , 剑桥大学的一项研究发现:这些算法存在严重的算法缺陷和偏见 , 无法用于实际的临床应用 。
实际上 , 致力于 AI 与医疗融合的研究者并不在少数 , 也有很多项目为此投资 , 但该领域仍然存在一些实际问题 。 近日 , Reddit 上的一篇帖子将 AI 医疗与 AlphaZero 进行了对比 , 引发了关于 AI 医疗问题的诸多讨论 。
数据集小、需要认证、容错成本高……
有网友从数据集大小、人机交互、认证和容错成本四个方面与 DeepMind 的 AlphaZero 进行了全方位的对比 , 指出了现有 AI 医疗诊断系统存在的一些基本问题 。

诊断|为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远
文章图片

首先 , 医疗数据集一般不太大 , 这是医生注释成本高昂造成的 。 此外 , 医疗过程也非常缓慢 。 例如 , 一台核磁共振机器每小时最多只能进行两次扫描 , 每天至多 48 次 , 每年不到 20000 次 。 如果存在 20 种疾病 , 分摊下来每种疾病只能得到 1000 张扫描图像 。 如果想要从多家医院收集数据 , 每家医院走流程都可能花费数月时间 , 并且研究人员也没有大把的时间来填写不同的表格 。 相比之下 , AlphaZero 的数据收集就容易多了 , 只需要进行游戏 , 每小时就能生成数百万个数据 。
关于这一点 , 有其他用户深表赞同 。 ta 曾见过一个 MRI 数据集 , 首先由 3 个医生进行标注 , 然后由领域专家重新检查 , 这一过程就需要大量的时间 。
其次是人机交互方面 , 至少在可预见的未来 , 医疗诊断系统需要人类医生的参与 。 所以 , 除了进行预测之外 , 医疗诊断系统还应该输出置信度、其他可能的结果以及任何有用的辅助信息 。 在很大程度上 , 如何正确处理这些仍是一个未解决的问题 。 而 AlphaZero 只需要输出单一动作就行了 。
再次 , 认证 。 你需要向决策者或医疗许可委员会「证明」医疗诊断系统有效 。 目前 , 解释神经网络仍是一个悬而未决的问题 , 一些人甚至质疑是否存在解释的可能 。 AlphaZero 不需要任何批准认可 , 只需在游戏服务器上部署或者找人类玩家测试就行了 。

诊断|为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远
文章图片

最后 , 容错成本 。 如果医疗诊断系统出错了 , 研发者可能会面临数百万美元的索赔 。 因此 , 你必须保证系统运行正确 。 AlphaZero 在围棋游戏中输了 , 那真是太糟糕了 , 仅此而已 。
【诊断|为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远】医疗诊断不是「一锤子买卖」
除了数据集大小、医疗认证、容错成本等这些宏观的问题 , 有网友还提到了另一个问题 。 不同情况的病患可能在诊断图像上呈现出完全相同的症状 , 因此医疗诊断系统有时可能会做出误判 。

诊断|为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远
文章图片

此外 , 不同机器或不同成像装置生成图像的分布有时大不相同 , 在一台机器上正常运行的算法可能完全不适用于另一台机器 。 可解释性也是一个问题 。 即使你的算法给出了正确的医疗结果 , 医生也往往会询问算法如何给出结论的 。
的确 , 诊断是一个极其困难的 AI 或 ML 问题 。 病患的情况远不止一种 , 也会出现不同的症状 。 因此 , 除了医疗诊断系统的初次诊断之外 , 还需要为进一步诊断、治疗方案、预后以及康健日程等提供智能支持 。
作为与健康安全息息相关的领域 , AI 医疗的可靠性是最重要的一个问题 , 但却经常被忽略 。 即使是病理样本分析 , 也常常存在一定程度的不确定性 。 仅对图像加标签会引入各种偏见 。 即使经过多位专家达成共识 , 结果也会是如此 , 并且这还会导致成本的成倍增加 。
医疗保健方面的问题非常复杂 , AI 目前更适用于日常生活 , 而不是提供医疗上的最终诊断和预测 。 有位医生网友表示:「在 AI 医疗领域发表的大部分论文是完全没有用的 , 但这些研究提供了很多可能性 。 未来几年 , 这一领域中炒作宣传的泡沫将会破裂 , 并且将会由相关法规提高临床实践中引入 AI 工具的门槛 。 目前 , 已经有一些产品获得了 EU 或 FDA 支持 , 但尚不存在临床支持 。 」
看来 , 将 AI 真正用于医疗还有很长的路要走 。
参考链接:
https://www.reddit.com/r/MachineLearning/comments/mkol81/why_are_correct_ai_medical_diagnoses_seemingly_so/

    推荐阅读