AAAI 2024 — 我们喜获3篇主会论文录用!
在AAAI 2024中,清华大学协同交互智能研究中心 (TsinghuaC3I) 共计3篇文章被录用,均在主会发表。
AAAI(Association for the Advance of Artificial Intelligence)是由美国人工智能协会主办的人工智能领域顶级学术会议之一。AAAI 2024 大会将于2月20日至2月27日举办。
论文1
作者:
, ,类别: Long Paper, Main Conference
摘要: 伴随着条件引导的扩散生成技术在图像生成领域取得的卓越表现,文本驱动的图像编辑方法最近已经吸引了广泛的关注。之前的图像编辑方法在对可感知的语义对象(“视觉实体”)进行增、删、修改时取得了精准的编辑效果,我们称之为离散敏感型的“硬编辑”任务。然而,在广泛的图像编辑应用中,更有挑战性的,是一类保持主体内容不变,对动作、姿态、形容词等语义连续变化的“困难”任务,称为“软编辑”任务(图1)。前者更为容易解决(例如通过ps进行修改),而后者却极难通过图像处理工具或现有的生成模型进行编辑,这阻碍了生成式AI实现用户定制化生成视觉内容的目标。为了缓解该问题,我们提出一种时空引导的自适应编辑算法AdapEdit,通过引入软注意力机制,在时间和空间两个维度自适应地调整编辑条件对视觉元素的引导权重,实现通用的图像编辑功能(图2)。另外,我们的方法在保留模型先验信息上有显著优势,无需使用额外的数据和优化条件对模型进行训练或微调,即可实现多样化的编辑能力。在广泛的测试图片和编辑指令上的结果表明AdapEdit对于硬编辑和软编辑指令都有很好的效果(图3、4)。
论文2
Generative Multi-Modal Knowledge Retrieval with Large Language Models
作者: 龙鑫玮, 曾嘉莉, 孟凡东, 马志远, 张开颜, , 周杰
类别: Long Paper, Main Conference
摘要: 面向多模态查询的知识检索在知识密集型多模态应用中十分重要,现有的方法多为集成多个检索器用于不同模态的检索任务,该类方法忽略了模态之间的关联,并且集成流水线带来了冗余的计算开销。本文基于大语言模型可以作为“隐式知识库”的假设,首次在多模态知识检索任务中提出使用生成式检索框架(图5,6),来代替传统的判别式检索流水线,检索过程分为两步:(1)生成与多模态查询相关的知识线索;(2)根据知识线索映射到知识库中的文档。其中只有第一步涉及到神经网络计算,知识线索的解码过程通过约束解码策略进行约束,维护知识线索和文档之间的确定性映射,从而使得第二步无需神经网络计算,是确定性的过程。为降低多模态大模型的微调代价,本文还提出了使用视觉实体特征融合的前缀微调方法来高效微调视觉模块,将多粒度的视觉特征对齐到大语言模型的特征空间。本文在三个多模态知识检索评测数据集上取得State-of-the-art的效果。
论文3
LMD: Faster Image Reconstruction with Latent Masking Diffusion
作者: 马志远, 于智洹, ,
类别: Long Paper, Main Conference
摘要: 作为一类卓有成效的方法,扩散概率模型(DPMs)在高分辨率图像重建方面已经表现出了突出的优势;而另一方面,作为流行的自监督视觉学习器,掩码自编码器(MAEs)已经表现出了简单、且有效的图像重建性能及在下游任务上的优越泛化能力。 虽然一个常用于生成式训练,一个常用于表征学习,但是二者底层都采用了图像重建的损失去进行模型的训练监督,且都需要消耗极高的训练成本,因此更快的图像重建方法筮需被提出。这篇工作中,我们观察到DPMs的高训练代价主要来自于其天然的高时序依赖(过长的扩散步骤,如1000步),而MAEs的高训练成本则来自于人为的低空域依赖(固定设计的高掩码比例,如 0.75)。 基于此,本文提出了一种符合直觉且简单、有效的隐式掩码扩散框架(LMD),用于高效的图像重建(图7)。首先,LMD利用一个变分自编码器将图像投射到隐空间中(类似Stable Diffusion),然后在隐空间中进行mask-then-prediction风格的图像重建,这在理论上比Pixel-level的方法更高效。然后,我们结合MAEs和DPMs各自的优势,设计了一种渐进式地掩码扩散策略,其通过三种不同的调度器去逐渐增加掩码的比例(称之为“掩码扩散”),能够充分利用DPMs的高空域依赖(充分地从上下文学习)和MAEs的低时序依赖(即Transformer的注意力并行)来降低训练的有效时耗(图8)。实验结果表明,在图像重建的预训练中,论文所提出的隐式掩码扩散方法,相比传统的DPMs和MAEs都具有接近3x(或3x以上)的有效时耗降低,在下游任务的推理速度也显著优于之前的方法。