(跨模态检索综述)AComprehensiveSurveyonCross-
惊险的近义词modalRet。。。
A Comprehensive Survey on Cross-modal Retrieval
Kaiye Wangy, Qiyue Yiny, Wei Wang, Shu Wu, Liang Wang∗, Senior Member, IEEE
1. 研究现状:
⽬前跨模态检索主要分为两种⽅法:(1)real-valued表⽰学习;(2)binary表⽰学习。Real-valued表⽰学习⽅法⽬的是学习不同模态数据的实值的相同的表⽰,⼤量的binary表⽰学习是将不同的数据模态映射到⼀个公共的Hamming空间。第⼆种⽅法相似性搜索速度是很快的,但编码是⼆进制编码,会导致信息的丢失,检索精度⼀般会略有下降。根据学习常⽤表⽰时所使⽤的信息,将跨模态检索⽅法进⼀步划分为四类:(1)⽆监督⽅法,(2)基于成对的⽅法,(3)基于秩的⽅法,(4)有监督的⽅法。⼀般来说,⼀种⽅法利⽤的信息越多,它获得的性能就越好。
2. 研究挑战:
如何度量不同模式数据之间的内容相似性,即异质性差距。因此,与传统的检索⽅法相⽐,跨模态检索需要跨模态关系建模,⽤户可以通过提交已有的内容来检索⾃⼰想要的内容。⽬前,主要的研究⼯作是设计有效的⽅法,使跨模态检索更加准确和可扩展性。
3. 本⽂贡献:
1. 这篇⽂章⽬的是提供⼀个跨模态检索近年发展的调查
2. 对跨模态检索⽅法进⾏了分类
3. 本⽂对常⽤数据集上的⼏种典型算法进⾏了评价
4. 总结了⽬前的挑战和机遇
新生儿护理4. 跨模态检索基本步骤:
5.Real-value reprentation learning:
如果不同的数据形式与同⼀事件或主题相关,则期望它们共享⼀定的公共表⽰空间,其中相关数据彼此接近。
小葱炒豆腐5.1 ⽆监督⽅法
⽆监督⽅法只利⽤共同出现的信息去学习多模态数据共有的表⽰。
⼦空间学习⽅法:⽬的是学习由不同数据模态共享的公共⼦空间,其中可以测量不同数据模态之间的相似性。例如Canonical Correlation Analysis (CCA,最⼤化两个模态的相关性学习公共⼦空间,不同模态特征的相似性去学习语义空间), Partial Least Squares (PLS,转变图像特征到⽂本空间,通过特征相似性学习语义空间),Bilinear Model (BLM), cross-modal factor analysis (CFA,在转换后的领域,采⽤最⼩化F-norm的标准), maximum covariance unfolding (MCU,最⼤协⽅差展开,⽤于同时降维不同模式数据的流形学习算法) , collective component
analysis (CoCA, 处理异构特征空间上的降维),
主题模型⽅法:主题模型已⼴泛应⽤于特定的跨模态问题,即图像注释。LDA已⼴泛运⽤于学习多模态数据的联合分布。(Multimodal Document Random Field, MDRF)学习⼀组跨模态的共享主题。该模型在⽂档级定义了⼀个马尔可夫随机域,允许对更灵活的⽂档相似性进⾏建模。
深度学习⽅法:⼀个深度受限的玻尔兹曼机器成功地学习了多模态数据的联合表⽰。它⾸先使⽤独⽴的模态友好的潜在模型来学习每个模态的低层表⽰,然后沿着⾼层的深层架构融合成联合表⽰。
深度典型相关分析(DCCA)是⼀种学习复杂⾮线性投影的深度学习⽅法,针对不同的数据模式,其结果表⽰形式是⾼度线性相关的。DCCA 的挑战在于复杂度和记忆时间。
correspondence autoencoder (Corr-AE)由两个单模态⾃动编码器的相关隐藏表⽰构成。该⽅法将每种模态的表⽰学习误差和两种模态的隐藏表⽰之间的相关学习误差的线性组合最⼩化,将模型作为⼀个整体进⾏训练。
5.2 Pairwi bad methods
该⽅法通过度量标准,找到不同模态的相似性。
Shallow⽅法:Multi-View Neighborhood Prerving Projection(Multi-NPP)将不同的模型投影到⼀个共享的特征空间,通过欧⽒距离划分出类内模态和类间模态的相似性。Multiview Metric Learning with Global consistency and Local smoothness (MVML-GL)⾸先寻找⼀个全局⼀致共享的隐藏特征空间,然后通过正则化局部线性回归,明确输⼊空间和隐藏特征空间的映射函数。joint graph regularized heterogeneous metric learning (JGRHML)通过学习异构矩阵,通过异构矩阵更好的学习⾼层的语义信息。
深度学习⽅法:RGDBN,MSDS。
5.3 基于秩的⽅法
表示听的词语Shallow⽅法:Supervid Semantic Indexing(SSI), discriminative kernel-bad method, Latent Semantic Cross-Modal Ranking (LSCMR)利⽤SVM学习矩阵学习⼀种度量⽅法,这样就可以根据不同的排序度量⽅法优化由查询距离引起的数据的排序。然⽽,LSCMR并没有充分利⽤双向排序的例⼦。RCCA对CCA学习的⼦空间进⾏调整,进⼀步保持点击数据中的偏好关系。
深度学习⽅法:深度视觉语义嵌⼊模型(DeViSE),Dependency tree RNN,双向搜索⽹络(⽤图像和句⼦的⽚段建⽴共同空间),deep compositional cross-modal learning,Cross-Modal Correlation learning with Deep Convolutional Architecture (CMCDCA),它由视觉特征表⽰学习和多模态相关性学
习组成。
5.4 有监督学习
⼦空间学习⽅法: Generalized Multiview Analysis (GMA), Canonical Correlation Analysis (ml-CCA), multiview feature learning approach bad on intra-view and interview supervid correlation analysis (I2SCA).
主题模型的⽅法;
深度学习⽅法
农业大丰收
贵阳在哪6. ⼆进制⽅法
主要全为哈希⽅法的变体。
总结与展望
⽬前可关注点如下
1.Collection of multimodal large-scale datats收集多模态⼤规模的数据集。
2.Multimodal learning with limited and noisy annotations 有限和噪声注释的多模态学习。
3. Scalability on large-scale data⼤规模数据的可扩展性。
4. Deep learning on multimodal data多模态数据的深度学习
5. Finer-level cross-modal mantic correlation modeling更优质的多模态语义相关模型
N. Rasiwasia, J. Costa Pereira, E. Coviello, G. Doyle, G. R. Lanckriet,R. Levy, and N. Vasconcelos, “A new approach to cross-modal multimedia retrieval,” in International conference on Multimedia. ACM,
西瓜的营养成分2010, pp. 251–260.
R. Rosipal and N. Kramer, “Overview and recent advances in partial ¨least squares,” in Subspace, latent structure and feature lection.Springer, 2006, pp. 34–51
[15] A. Sharma, A. Kumar, H. Daume, and D. W. Jacobs, “Generalized multiview analysis: A discriminative latent space,” in Computer Vision
and Pattern Recognition. IEEE, 2012, pp. 2160–2167.
[16] J. B. Tenenbaum and W. T. Freeman, “Separating style and content with bilinear models,” Neural Computation, vol. 12, no. 6, pp. 1247–1283, 2000.
挖槽
D. Li, N. Dimitrova, M. Li, and I. K. Sethi, “Multimedia content processing through cross-modal association,” in International Conference on Multimedia. ACM, 2003, pp. 604–611
D. Li, N. Dimitrova, M. Li, and I. K. Sethi, “Multimedia content processing through cross-modal association,” in International Conference on Multimedia. ACM, 2003, pp. 604–611
V. Mahadevan, C. W. Wong, J. C. Pereira, T. Liu, N. Vasconcelos, and L. K. Saul, “Maximum covariance unfolding: Manifold learning for bimodal data,” in Advances in Neural Information Processing Systems,
2011, pp. 918–926.
X. Shi and P. Yu, “Dimensionality reduction on heterogeneous feature space,” in International Conference on Data Mining, 2012, pp. 635–
644