最新研究给AI医生泼冷水:诊断准确率仅为52.1%,与非专家医生相当
扫描二维码
随时随地手机看文章
在人工智能(AI)技术飞速发展的当下,AI在医疗领域的应用一直备受关注。然而,一项最新的研究结果却给AI医生的前景泼了一盆冷水。据报道,大阪都会大学医学研究生院的研究团队深入评估了生成式AI在诊断医疗状况方面的表现,并将其与医生进行了对比,发现结果不那么如人意。
研究团队从18371项研究中筛选出83项进行详细分析,涵盖了GPT-4、Llama3 70B、Gemini 1.5 Pro和Claude 3 Sonnet等主流生成式AI模型,覆盖了多个医疗领域。结果显示,这些AI模型的平均诊断准确率仅为52.1%(95%置信区间:47.0% - 57.1%),这一数字远远低于人们的预期。
更令人意外的是,AI的诊断准确率与非专家医生相当,两者之间没有显著统计差异(准确率差异:0.6%[95%置信区间:-14.5%至15.7%],p=0.93)。这意味着,尽管AI在某些领域表现出色,但在整体医疗诊断中,其能力并不比普通医生更强。而与专家医生相比,AI的差距则更为明显,专家医生的准确率高出AI 15.8%(95%置信区间:4.4% - 27.1%,p=0.007)。
研究还发现,AI在大多数医学专科的表现较为一致,但在皮肤科和泌尿科这两个领域却出现了例外。在皮肤科,AI的表现相对出色,这可能是因为该领域涉及模式识别,而这是AI的强项。然而,皮肤科同样需要复杂的推理和针对患者的决策,AI的优势并不能完全反映其在该领域的实际应用价值。对于泌尿科,研究结果仅基于一项大型研究,结论的普适性受到一定限制。
研究团队指出,尽管生成式AI在医学教育中具有一定的潜力,可以用于模拟真实病例,帮助医学生和受训者学习和评估技能,但在实际医疗诊断中,其局限性仍然明显。研究人员强调,未来的研究需要在更复杂的临床场景中进行评估,使用实际病历进行性能评估,提高AI决策的透明度,并在不同患者群体中进行验证,以进一步证实AI的能力。
此外,研究还对AI模型的透明度和偏见提出了担忧。许多AI系统并未公开其训练数据的详细信息,这引发了关于其结果是否适用于所有人群的疑问。研究人员指出,透明度是确保对模型知识、背景和局限性理解的关键,而目前AI系统的不透明性可能会限制其在医疗领域的广泛应用。
总之,尽管生成式AI具有巨大潜力,但在涉及详细患者信息的复杂病例中仍面临巨大挑战。这项研究结果表明,AI在医疗诊断领域的应用仍需谨慎,其距离真正替代医生还有很长的路要走。