近日,3499cc拉斯维加斯2022级电子信息专业研究生赵炜辰以第一作者在国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,简称ICASSP, CCF-B会议)上发表研究两篇论文。论文是在我校焦铬教授的指导下完成,3499cc拉斯维加斯为第一署名单位。
论文介绍
1. Concentrated Reasoning and Unified Reconstruction for Multi-Modal Media Manipulation.
作者: Weichen Zhao; Yuxing Lu; Ge Jiao*; Yuan Yang
随着大规模生成模型的发展,生成逼真的图像和虚假新闻变得更加容易,但同时在多模态媒体篡改检测领域带来了新的挑战。本研究聚焦于Detecting and Grounding Multi-Modal Media Manipulation (DGM4)任务,即同时检测图像-文本对中的多模态篡改类型,并分别定位图像和文本中被篡改的区域和单词。与单一模态的假信息检测相比,DGM4任务因图像的复杂背景和自然语言的多样性而更难实现跨模态特征对齐。本文的核心理论基于这样的认识:多模态篡改往往在细微的语义不一致性中表现出来,通过不同模态之间的特征融合与推理,可以有效地检测篡改样本中的跨模态差异。因此,本文摒弃了传统的层次化推理范式,通过先进的掩码信号建模和设计基于Transformer的重构协调器,提出了一种名为Concentrated reasoning and Unified reconstruction的推理框架,促进重构特征之间更复杂的交互,从而整合特征,支撑细致的推理任务。
链接:https://ieeexplore.ieee.org/document/10447651/authors#authors
2. Dual-Color Granularity Alignment for Text-Based Person Search.
作者: Weichen Zhao; Yuxing Lu; Ge Jiao*; Yuan Yang
在文本描述的人物搜索(Text-based Perseon Search,TBPS)这一研究领域面临的主要挑战在于如何准确地根据文本描述检索到特定人物的图像。这一挑战主要源于文本描述与视觉图像之间的本质差异,以及需要捕捉到个体特征的精细差异。鉴于现有方法通常忽视了不同颜色通道间的粒度一致性,我们提出了一个创新的框架——双色粒度对齐(DCGA),旨在通过更有效地桥接文本和图像之间的语义差异来优化TBPS任务。DCGA主要包含两大组件:基于前景的对齐(FBA)和细粒度令牌细化(FTR)。FBA通过背景衰减的共注意机制来减少背景噪声,强化不同模态间的语义一致性;而FTR利用重注意令牌选择机制挑选出有代表性的特征,并通过Transformer框架实现文本和视觉特征间的细粒度交互。此外,DCGA采用了一种改进的对比损失(CR Loss),引入灰度信息作为额外的弱监督信号,以此来应对类内变异大和数据集稀缺的问题,从而提高模型在复杂场景下的鲁棒性和准确性。
链接:https://ieeexplore.ieee.org/document/10445822