我校计算机学院（软件学院）张怀文研究员课题组在多媒体领域国际顶级期刊IEEE Transactions on Multimedia发表研究成果-内蒙古大学研究生院

近日，我校计算机学院（软件学院）蒙古文智能信息处理技术国家地方联合工程研究中心（蒙古文信息处理技术自治区重点实验室）张怀文研究员课题组与中国科学院自动化研究所徐常胜研究员团队合作在国际多媒体领域顶级期刊《IEEE Transactions on Multimedia》上发表了题为“Robust Video-Text Retrieval via Noisy Pair Calibration”的论文（DOI: 10.1109/TMM.2023.3239183）。

随着移动设备的普及，视频数据的规模不断扩大，视频-文本检索变得越来越重要。现有主流的方法是将视频和文本的样本映射到一个共同的表示空间，在该空间中，语义相似的样本具有较近的距离。然而，现有的方法在构建共同表示空间时，可能会受到以下噪声的影响：一是正样本对的视频-文本可能不是精确匹配的。现有的数据集大多采用众包的方式进行标注，由于非专业注释人员的存在，不可避免的引入了标记噪声；二是视频-文本表示的学习基于随机抽样的负样本对。语义上与查询相似的样本可能被错误地归类为负样本。

图一：视频-文本检索中的两种噪声对

为了缓解这些噪声数据对训练造成的负面影响，论文提出了一种新颖的鲁棒视频文本检索方法。

图二：鲁棒的视频-文本检索框架图

首先设计了一个不确定性估计模块，通过估计视频-文本对的不确定性分数，来识别噪声数据，其次又提出了自适应边界的三元损失和加权的对比损失函数。通过噪声数据的不确定性，对训练过程中的两类噪声数据进行校正，从而缓解噪声数据带来的不利影响。

表一：多种视频-文本检索方法在不同噪声情况下的表现对比

为了验证所提方法的有效性，论文在广泛使用的视频-文本检索数据集上进行了大量的实验。表一的实验结果表明，所提方法能够成功地缓解噪声数据带来的负面影响，提高视频-文本检索的性能。

图三： (a)-(d)噪声数据识别情况的结果可视化，(e)检索结果

论文提供了数据集中噪声数据的分布情况（图(a)）、通过所提方法识别出的噪声数据分布情况（图(b)）、非噪声数据的不确定性分数的实际情况和预测情况的对比（图(c)）、以及噪声数据不确定性分数的实际情况和预测情况的对比（图(d)）。可以观察到，所提方法能够较为准确地区分训练数据中的噪声，从而保证模型的性能（图(e)）。

《IEEE Transactions on Multimedia》是多媒体技术及多媒体应用研究的国际顶级期刊，被列为JCR一区TOP期刊，影响因子为8.182。我校计算机学院（软件学院）张怀文研究员为该论文的第一作者，计算机学院（软件学院）2021级博士生杨洋为第二作者，该课题受到内蒙古大学骏马计划资助。

论文链接：https://ieeexplore.ieee.org/document/10024790

来源：计算机学院（软件学院）