电气信息工程学院张焕龙副教授团队在国际知名期刊《IEEE Transactions on Multimedia》发表论文

发布者:夏阳发布时间:2024-09-14浏览次数:29

 近期,电气信息工程学院张焕龙老师团队在计算机信息系统领域的顶级期刊《IEEE Transactions on Multimedia》(《IEEE多媒体汇刊》)上发表题为“ One-stream Vision-Language Memory Network for Object Tracking用于目标跟踪的单流视觉语言记忆网络”的研究论文。

 

 多数现有跟踪方法试图通过基于各种深度网络,以尽可能利用视觉信息来表示目标。然而,外观模型难以很好地描述目标的属性特征,使得跟踪器无法适应复杂的实际应用场景。受到类脑智能的启发,论文提出了用于对象跟踪的单流视觉-语言记忆网络(OVLM)。首先,利用融合视觉和语言特征跨模态构建目标模型,该过程中利用文本中的语义信息来补偿视觉信息的不稳定性,使目标模型在面对复杂外观变化时更加稳定。其次,为了构建更紧凑的目标模型,提出了内存Token选择机制,该机制利用语言信息,消除了不包含目标信息的Token。此外,为了给目标建模提供更好的视觉信息,提出了一种语言评估方法以选择优质跟踪结果,实现状态有效更新。文章通过揭示视觉语言记忆网络的机理,旨在模拟人脑记忆策略,为视觉语言跟踪开辟新的途径。

 该论文以郑州轻工业大学为第一署名单位,张焕龙老师为第一作者。论文得到了国家自然科学基金面上项目、河南省优秀青年科技项目,以及河南省科技攻关等项目支持。

IEEE Transactions on Multimedia》创刊于1963年,是IEEE 电气电子工程师公司IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC)出版的旗舰期刊。该期刊为中科院大类分区一区TOP期刊,2024年影响因子为8.4

 

原文链接:https://ieeexplore.ieee.org/document/10149530

引用格式:Zhang H, Wang J, Zhang J, et al. One-stream vision-language memory network for object tracking[J]. IEEE Transactions on Multimedia, 2023, 26: 1720-1730.

第一作者:张焕龙

    郑州轻工业大学电气信息工程学院副教授,硕士生导师,模式识别与视觉感知团队负责人。先后被遴选为河南省杰青、河南省优青、河南省教育厅高校科技创新人才、河南省教育厅学术带头人等荣誉称号。主要从事人工智能、模式识别与智能系统、电力泛在物联网、机器视觉检测云系统设计与开发方面研究工作。

 近五年,先后主持获得国家自然科学基金项目3项,河南省杰出青年科学基金项目、河南省优秀青年科学基金项目、河南省教育厅高校创新人才项目、河南省科技攻关项目等各1项。主持获河南省科技进步二等奖2项,中国商业联合会科技进步二等奖1项,河南省教育厅科技成果一等奖3项。发表学术论文50余篇,SCI/EI收录50余篇,授权发明专利10件,出版学术专著2部。