微软公开AI多轮诊断系统MAI-DxO研究,高难度临床病例测试优于专科医师

微软人工智慧团队微软开发MAI-DxO系统,采用生成式人工智慧多模型协作机制,模拟虚拟医师小组针对复杂病例逐步询问病史,并选择检查项目以及依据回馈资讯调整推论方向。这一诊断流程更贴近临床现场,突破过往单一选择题式人工智慧测试对临床推理能力的局限,进一步提升医疗人工智慧在实际场域的评估深度。

为验证人工智慧临床决策能力,研究团队将NEJM发表的病例转换为数位互动情境,要求人工智慧与专业医师在同样资讯条件下进行连续诊断测试。人工智慧系统除了能更快收敛到正确诊断,也可根据虚拟成本限制合理安排检查项目,避免过度检查带来的不必要支出或病患负担。测试结果显示,MAI-DxO不仅于诊断准确率领先现有人力团队,在医疗资源分配与成本意识方面也展现可稽核与调整弹性。

该系统整合多家主流人工智慧基础模型,包括GPT、Llama、Claude、Gemini等,采用多模型协作机制来弥补单一模型推理盲点,提升系统的稳定性与适应力。微软团队强调,MAI-DxO可针对不同医疗情境调整诊断准则与成本权重,进一步强化在高度专业、高风险环境中的可靠性与可追踪性。

虽然此次成果集中于复杂、少见的临床案例,并以专业医师不借助外部资源、同僚协助或现有人工智慧工具下的表现为基准,但MAI-DxO于真实世界应用尚需进一步扩大测试范围,包括对常见病症的实际临床表现与跨区域医疗系统的适应性。同时,医疗人工智慧大规模落地前仍有赖于治理、法遵及持续实证,以确保诊断安全性与效益。