MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Yuxin Zuo, Shang Qu, Linhai Xie, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou

2025年5月

摘要

我们提出了一个全面且具有高度挑战性的医学基准MedXpertQA，用于评估专家级的医学知识和高级推理能力。MedXpertQA 共包含 4,460 道题目，涵盖 17 个医学专科和 11 个身体系统。该基准包含两个子集：用于文本医学能力评估的 Text 子集，以及用于多模态医学能力评估的 MM 子集。值得注意的是，MM 子集首次引入了带有多样化图像和丰富临床信息（如病历和检查结果）的专家级考试题，区别于传统多模态医学基准中基于图像描述生成的简单问答对。通过严格的筛选和数据增强流程，MedXpertQA 克服了现有基准难度不足的问题（如 MedQA），并引入医学专科考试题，以提升临床相关性和全面性。我们还进行了数据合成以降低数据泄漏风险，并通过多轮专家评审和标注以确保数据的准确性与可靠性。我们在 MedXpertQA 上评估了 17 个领先模型。此外，由于医学与现实世界中的决策密切相关，因此非常适合作为数学与编程之外的推理能力评估场景。为此，我们专门构建了一个以医学推理能力评估为导向的子集，用于更好地评估类o1模型的能力。Github: https://github.com/TsinghuaC3I/MedXpertQA

类型

会议文章

出版物

ICML 2025

Artificial Intelligence