微軟公開AI多輪診斷系統MAI-DxO研究，高難度臨床病例測試優於專科醫師

微软人工智慧团队微软开发MAI-DxO系统，采用生成式人工智慧多模型协作机制，模拟虚拟医师小组针对复杂病例逐步询问病史，并选择检查项目以及依据回馈资讯调整推论方向。这一诊断流程更贴近临床现场，突破过往单一选择题式人工智慧测试对临床推理能力的局限，进一步提升医疗人工智慧在实际场域的评估深度。

为验证人工智慧临床决策能力，研究团队将NEJM发表的病例转换为数位互动情境，要求人工智慧与专业医师在同样资讯条件下进行连续诊断测试。人工智慧系统除了能更快收敛到正确诊断，也可根据虚拟成本限制合理安排检查项目，避免过度检查带来的不必要支出或病患负担。测试结果显示，MAI-DxO不仅于诊断准确率领先现有人力团队，在医疗资源分配与成本意识方面也展现可稽核与调整弹性。

该系统整合多家主流人工智慧基础模型，包括GPT、Llama、Claude、Gemini等，采用多模型协作机制来弥补单一模型推理盲点，提升系统的稳定性与适应力。微软团队强调，MAI-DxO可针对不同医疗情境调整诊断准则与成本权重，进一步强化在高度专业、高风险环境中的可靠性与可追踪性。

虽然此次成果集中于复杂、少见的临床案例，并以专业医师不借助外部资源、同僚协助或现有人工智慧工具下的表现为基准，但MAI-DxO于真实世界应用尚需进一步扩大测试范围，包括对常见病症的实际临床表现与跨区域医疗系统的适应性。同时，医疗人工智慧大规模落地前仍有赖于治理、法遵及持续实证，以确保诊断安全性与效益。

微软公开AI多轮诊断系统MAI-DxO研究，高难度临床病例测试优于专科医师