MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Image credit: Original Paper

摘要

我们提出了一个全面且具有高度挑战性的医学基准MedXpertQA,用于评估专家级的医学知识和高级推理能力。MedXpertQA 共包含 4,460 道题目,涵盖 17 个医学专科和 11 个身体系统。该基准包含两个子集:用于文本医学能力评估的 Text 子集,以及用于多模态医学能力评估的 MM 子集。值得注意的是,MM 子集首次引入了带有多样化图像和丰富临床信息(如病历和检查结果)的专家级考试题,区别于传统多模态医学基准中基于图像描述生成的简单问答对。通过严格的筛选和数据增强流程,MedXpertQA 克服了现有基准难度不足的问题(如 MedQA),并引入医学专科考试题,以提升临床相关性和全面性。我们还进行了数据合成以降低数据泄漏风险,并通过多轮专家评审和标注以确保数据的准确性与可靠性。我们在 MedXpertQA 上评估了 17 个领先模型。此外,由于医学与现实世界中的决策密切相关,因此非常适合作为数学与编程之外的推理能力评估场景。为此,我们专门构建了一个以医学推理能力评估为导向的子集,用于更好地评估类o1模型的能力。Github: https://github.com/TsinghuaC3I/MedXpertQA

出版物
ICML 2025