陈永锋, 刘劲, 杨志景, 陈锐涵, 谭俊鹏
Chen Yong-feng, Liu Jing, Yang Zhi-jing, Chen Rui-han, Tan Jun-peng
摘要: 针对目前基于共识学习的图文匹配算法无法有效匹配图像–文本样本对中难分的负样本,模型的泛化能力较弱,在大规模数据集上效果不佳等不足,本文提出了一种基于样本对语义主动挖掘的图文匹配模型。首先,提出的自适应分层强化损失具有多样化的学习模式,在传统的三元组损失基础上,增加具有预测性的候选实例(难以分辨的样本对)进行辅助训练。其主动学习模式通过一种惩罚机制来关注难分的负样本,以提高判别能力。此外,提出的模型还能自适应地从非真实标签样本中挖掘出更多隐藏的相关语义表征,从而提高了模型的性能和泛化能力。最后,在Flickr30K和MSCOCO公共数据集上的实验结果证明了该算法的有效性,其性能达到了目前先进水平。本方法有效地结合了图像文本两种模态,能有效提高自然语言搜索和视觉问题回答等应用的性能。
