为验证人工智慧临床决策能力,研究团队将NEJM发表的病例转换为数位互动情境,要求人工智慧与专业医师在同样资讯条件下进行连续诊断测试。人工智慧系统除了能更快收敛到正确诊断,也可根据虚拟成本限制合理安排检查项目,避免过度检查带来的不必要支出或病患负担。测试结果显示,MAI-DxO不仅于诊断准确率领先现有人力团队,在医疗资源分配与成本意识方面也展现可稽核与调整弹性。
该系统整合多家主流人工智慧基础模型,包括GPT、Llama、Claude、Gemini等,采用多模型协作机制来弥补单一模型推理盲点,提升系统的稳定性与适应力。微软团队强调,MAI-DxO可针对不同医疗情境调整诊断准则与成本权重,进一步强化在高度专业、高风险环境中的可靠性与可追踪性。
虽然此次成果集中于复杂、少见的临床案例,并以专业医师不借助外部资源、同僚协助或现有人工智慧工具下的表现为基准,但MAI-DxO于真实世界应用尚需进一步扩大测试范围,包括对常见病症的实际临床表现与跨区域医疗系统的适应性。同时,医疗人工智慧大规模落地前仍有赖于治理、法遵及持续实证,以确保诊断安全性与效益。