ICML 2025 — 4篇主会议论文接收!

在ICML 2025中,清华大学协同交互智能研究中心 (TsinghuaC3I) 共计 4 篇文章被录用,均在主会发表。
ICML (The International Conference on Machine Learning) 为机器学习方向的全球顶级学术会议。会议聚焦人工智能、数据科学等领域,以及机器学习在计算机视觉、计算生物学、语音识别等领域的应用。ICML 2025将于7月13日至7月19日举办。
论文 1
Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization
作者: 华尔默, 姜澈, 吕兴泰, 张开颜, 丁宁, 孙友邦, 齐弼卿, 樊钰辰, 朱学凯,
类别: Long Paper, Main Conference
摘要: 通过改进旋转位置编码(Rotary Position Embedding,RoPE)来扩展语言模型(Language Models,LMs)的上下文长度已成为一种趋势。然而,现有的研究主要集中在解决 RoPE 在 Attention 中的局限性,而本文则对语言模型的几乎所有模块都进行了分析,揭示了它们对 RoPE-based Attention 在长度泛化方面的不利影响。借助数字信号处理理论,我们证明了 RoPE-based Attention 隐式地使用了非均匀离散傅里叶变换,来实现周期性的 Attention 机制。然而,这种周期性受到了以下因素的破坏:1)Attention 机制之外的线性层和激活函数;2)由时域截断引入的未充分训练的频率分量。基于我们的观察,我们提出了傅里叶位置编码(Fourier Position Embedding,FoPE),它通过增强注意力的频域特性来改善其周期性延拓和长度泛化能力。FoPE 构建了傅里叶级数并消除了破坏性的频率分量,从而增强了模型对频谱损伤的鲁棒性。在不同模型规模和基准测试中的实验表明,在不同的上下文窗口中,FoPE 相比 RoPE 和 ALiBi 能够保持更稳定的性能。此外,多项分析和消融实验进一步支持了我们的方法和理论建模。
论文 2
Free Process Rewards Without Process Labels
作者:
类别: Long Paper, Main Conference
摘要: 与评估完整输出的结果奖励模型(ORM)不同,过程奖励模型(PRM)则是对推理轨迹进行逐级评分,从而提供更密集、更精细的奖励。然而,训练 PRM 需要在每个中间步骤进行标注,给人工和自动数据收集带来了巨大挑战。本文旨在应对这一挑战。我们从理论和实证两方面证明,只需在较低成本的响应级标签上训练 ORM,就能在不增加额外成本的情况下获得一个隐式 PRM。唯一的假设是将结果奖励参数化为策略模型和参考模型的对数似然比,无论损失目标的具体选择如何,都可以对其进行优化。在实验中,我们用各种目标实例化了隐式 PRM,并评估了它们在 MATH 上的性能。结果表明,我们的隐式 PRM 在使用低于 1/38 的数据量的前提下,效果优于基于 MCTS 的强基线 Math-Shepherd。它的性能还可以通过多数投票得到进一步提高。我们进一步发现,扩大指令和输出的规模对我们的隐式 PRM 有益,而后者带来的收益更大。特别地,我们发现,当我们的隐式 PRM 与交叉熵(CE)损失实例化时,数据效率更高,即使在每个指令只有一个响应的情况下,也能不断改进生成模型。此外,指令应与下游任务相关,而响应的多样性不会带来收益。令人惊讶的是,在额外的 Math-Sheperd 步骤标签上进行训练,并不能进一步改善我们仅在结果数据上进行训练的隐式 PRM。我们希望我们的工作能鼓励研究者重新思考 PRM 的训练方法,并降低 PRM 训练的成本和难度。
论文 3
How to Synthesize Text Data without Model Collapse?
作者: 朱学凯, 成岱璇, 李珩立, 张开颜, 华尔默, 吕兴泰, 丁宁,
类别: Long Paper, Main Conference
摘要: 随着生成式人工智能的快速发展,合成数据在语言模型训练中的应用愈加广泛。然而,这也引发了一个关键问题——模型崩溃(Model Collapse),即模型在反复使用自身生成的数据进行训练时会出现性能持续下降的现象。本研究围绕两个核心问题展开:其一,合成数据对语言模型训练有何具体影响;其二,如何设计数据生成策略以有效避免模型崩溃。作者通过对不同合成比例的数据进行语言模型预训练,实证揭示了合成数据比例越高,模型性能越差的趋势,并进一步发现合成数据普遍存在分布覆盖不足和 n-gram 特征过度集中的问题。为此,研究提出了一种基于真实数据的 Token-Level 编辑策略(ToEdit),通过对模型高度确信的位置进行局部重采样,生成结构上更贴近真实分布的半合成数据。理论分析表明,该方法能够有效限制测试误差的上界,从而避免模型崩溃。在从零预训练、持续预训练与监督微调等多项实验中,该方法在不增加数据规模的前提下显著提升了模型在各类任务中的表现,验证了其理论可行性与实际有效性。
论文 4
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
作者:
类别: Long Paper, Main Conference
摘要: 我们提出了一个全面且具有高度挑战性的医学基准 MedXpertQA,用于评估专家级的医学知识和高级推理能力。MedXpertQA 共包含 4,460 道题目,涵盖 17 个医学专科和 11 个身体系统。该基准包含两个子集:用于文本医学能力评估的 Text 子集,以及用于多模态医学能力评估的 MM 子集。值得注意的是,MM 子集首次引入了带有多样化图像和丰富临床信息(如病历和检查结果)的专家级考试题,区别于传统多模态医学基准中基于图像描述生成的简单问答对。通过严格的筛选和数据增强流程,MedXpertQA 克服了现有基准难度不足的问题(如 MedQA),并引入医学专科考试题,以提升临床相关性和全面性。我们还进行了数据合成以降低数据泄漏风险,并通过多轮专家评审和标注以确保数据的准确性与可靠性。我们在 MedXpertQA 上评估了 17 个领先模型。此外,由于医学与现实世界中的决策密切相关,因此非常适合作为数学与编程之外的推理能力评估场景。为此,我们专门构建了一个以医学推理能力评估为导向的子集,用于更好地评估类o1模型的能力。Github: https://github.com/TsinghuaC3I/MedXpertQA