跨媒体检索(关联)之基于CCA的⽅法⼤总结跨媒体检索相关英⽂论⽂
⽂章⽬录
背景
跨媒体既表现为包括⽂本、图像、⾳频、视频等媒体类型混合并存,⼜表现为各种媒体类型形成复杂的关联关系和组织结构。如何在不同媒体之间建⽴⼀种联系使得能够统⼀的表达跨媒体信息是⽬前跨媒体研究的⼀个重要挑战。
常见的⽅法是建⽴⼀个共享⼦空间,不同媒体类型的数据对象的相似性可以映射到这个⼦空间中使⽤常见的距离度量(如欧⼏⾥得和余弦距离)算法直接计算。
本⽂依据⼏篇经典的论⽂,介绍了⼏种基于典型相关分析(CCA)的⽅法。
1 2010-A New Approach to Cross-Modal Multimedia Retrieval[1]
1.1 主要思想
本⽂研究多媒体⽂本和图像联合建模问题。
表⽰:
⽂本使⽤LDA(latent Dirichlet allocation)模型表⽰。
图像使⽤SIFT特征表⽰。
学习模型:CM/SM/SCM背丝扣
数据集:Wikipedia datat.
创新之处:
提出三种⼦空间学习模型。
增加语义层的推断。例如,将层次主题模型⽤于⽂本聚类或层次语义表⽰⽤于图像检索。通过将图像和⽂档利⽤逻辑回归算法建模为关于⼀组预定义⽂档类的后验概率向量,并与通过CCA学习后的⼦空间联合,提出⼀个语义相关匹配(SCM)跨媒体检索模型。
1.2 模型
图1.1 跨媒体检索模型系统
1.2.1 问题
在特征空间中表⽰图像和⽂本向量,每个⽂档和图像与各⾃的空间中的点建⽴⼀对⼀的映射。⽬标是给定⼀个查询⽂本(图像)
,检索模型在图像空间(⽂本空间)中返回最相近的匹配。
⼀般情况下,在和建⽴⼀个可逆映射,如:
给定⼀个,返回⼀个最近匹配,反之同。计生部门
但由于⽂本和图像的表⽰⽅法不同,因此上述表⽰不能直接建⽴。⼀种⽅法是,建⽴两个中间空间⽤来映射这两种表⽰,如:
空间是同构的,因此可以建⽴⼀个映射,如:
给定⼀个。返回最近匹配 ,反之,给定 ,返回 所以在这种情况下,⽬标是学习。
论⽂提出3种⽅法,分别是,,
.
1.2.2 CM
第⼀种⽅法,建⽴两个线性投影矩阵:
分别将映射到相关的d维⼦空间,其维持了表⽰的抽象层级。
这⾥使⽤了典型相关分析(Canonical correlation analysis ,CCA)⽅法学习⼦空间,。CCA是⼀种类似于PCA的数据分析和降维⽅法,和PCA不同的是CCA可以对两个空间进⾏降维,并提供相同的异构表
⽰。定义,⽬标是最⼤化⽂本和图像变量的相关性,如,
和 分别表⽰图像 和⽂本${T_1,…,T_(|D|)} 是其交叉-协相关矩阵。
公式(1-1)可以转化为⼀个⼀般的求特征值的问题(generalized eigenvalue problem,GEV)。⾸先利⽤LDA优化问题,固定分母,求分⼦最⼤化。如:
R 和R I T T ∈q R (I ∈T q R )I R I R T R I R T M :R →T R I
T in R q T M (T ) in R q I M :I R →I U I M :T R →T U T
U ,U I T M :U →T U .
I T in R q T M ∘M ∘M (T ) in R I −1
T q I I in R q I M ∘M ∘M (I ) in R .T −1
看穿歌词
−1I q T U ,U I T Correlationmatching (CM )Semanticmatching (SM )Semanticcorrelationmatching (SCM )P :T R →T U T P :I R →I U I诚惶诚恐是什么意思
R ,R I T U ,U I T U ⊂I R I U ⊂T R T w ∈i R ,w ∈I t R T w =0,w =0
i t max
w w i T ∑II i w w t T
∑TT t
w w i T
∑IT t
(1-1)
∑II ∑TT I ,...,I ∣D ∣)1(经验协相关矩阵∑IT =∑TI T
求分⼦最⼤化。如:
求解此问题可以⽤拉格朗⽇乘数法,令:
对(1-3)求偏导,得到和,令其等于0,得:
公式(1-4)可以转化为⼀个求特征值问题,简化得:
最终求出和.
应⽤于跨媒体检索中,每个⽂本被映射到其投影到上,图像与之类似。这样向量和分别是两个同构d维⼦空间的坐标,它们也被认为是属于通过和叠加⽽形成的单个空间.
给定⼀个图像,且,⽬标是求使得公式(1-6)最⼩的的值,并返回最相似的匹配,式(1-6)如下:
式(1-6)中是⼀种距离度量公式。
以上检索类型被定义为.
1.2.3 SM
max imize w w i T
IT
∑
t
s .t . w w =
i T
II
∑
i 1,w w =t T TT
∑
t 1
(1-2)
L =
w w −i T IT
∑
t (w w −1)−2λi T II ∑i (w w −2θt T
TT ∑
t 1),
(1-3)
∂w i ∂L ∂w t ∂L
{w −λw =0,∑IT t ∑II i w −θw =0.我爱我自己
∑TI i ∑TT t (1-4)
=⎝⎛0
∑TI
∑IT 0⎠⎞⎝⎛w i w t ⎠⎞
λ.
⎝⎛∑II
0∑TT ⎠⎞⎝⎛w i w t ⎠
⎞
(1-5)
λw ,w i t T ∈R T p =T P (T )T w t ,k )(k =1d
p T p I U 和U T I U T U I U I q p =I P (I )q p =T P (T )T (T ∈R )T T D (I ,T )=d (p ,p )I T (1-6)
d correlationmatching
第⼆种⽅法,建⽴两个⾮线性转换:
将映射到⼀对语义空间。其增加了表⽰的语义抽象。
⾸先在数据库中定义语义概念词典,其中表⽰⼀个类,⽐如“History” 或者 “Biology”。
将⼀个⽂本 映射到⼀个后验概率向量.这些向量构成⼀个语义空间,类似地,图像的语义空间为。
⼀种求后验概率分布的⽅法是多类逻辑回归算法。逻辑回归通过训练数据得到⼀个回归函数,从⽽计算⼀个类j的后验概率。回归函数公式如下:
其中 是归⼀化常数,代表类别集合,是输⼊的特征向量集合,是类的参数向量。由于 和 在相同的⽂档类中表⽰的后验概率向量空间,因此和是同构的,即认为。给定⼀个图像,将其表⽰为概率向量,通过最⼩化公式(1-8)得到,公式如下:
这种检索类型被定义为。
1.2.4 SCM
第三种⽅法,将1,2联合。
⾸先,使⽤CCA学习⼦空间,然后⽤逻辑回归算法在第⼀步基础上学习语义空间 和,最后根据公式(1-8)检索,其中.
这种检索类型被定义为.
1.3 实验
在Wikipedia datat中检索结果如截图所⽰。
图1.2 不同距离度量下的检索结果
L :T R →T S T L :I R →I S I
R ,R I T S ,S ,s .t .S =T I T S I V ={v ,…,v }1K v K L T T ∈R T P V ∣T )(v │T ),i ∈(i {1,…,K }S T S I P (j ∣x ;w )=V ∣X exp (w x )
Z (x ,w )1
j T
(1-7)
Z (x ,w )=exp (w x )∑j j T
V X w j j S T S I S T S I S =T S I I q π∈I S I π∈T S T D (I ,T )=d (π,π)I T (1-8)
manticmatching U ⊂I R ,U ⊂I T R T S T S I π=I L (P (I )),π=I I T L (P (T ))T T manticcorrelationmatching (SCM )放风筝的人
图1.2 最佳检索结果
1.4 讨论
CCA⽅法只能解决线性表⽰的数据,Hwang[3]等⼈提出KCCA,可以表⽰⾮线性数据。
KCCA相对CCA的优势是:
由于其复杂的函数空间,使⽤⾜够的训练数据可以⽤来表⽰更⾼的相关性。
可以⽣成特征以提⾼分类器性能。
不⾜:
训练速度慢。
测试时需要⽤到训练集,因此事先要存储训练集。
模型难以解释。
以上参考
2 2013-Deep Canonical Correlation Analysis[2]
2.1 主要思想
本⽂提出DCCA。实验表明,相⽐于CCA和KCCA,使⽤DCCA在相关性测量上具有更好的表⽰。
外直肌2.2 KCCA
原论⽂见[3],关于KCCA的详细原理见。
普通的线性CCA只能探索两组随机变量之间的线性关系,⽽在实际情况中,变量间的关系往往是⾮线性的,于是⾮线性的CCA出现
了,KCCA就是⼀种常⽤的⾮线性CCA算法。预备党员需要交党费吗
KCCA是把核函数的思想引⼊CCA中,思想是把低维的数据映射到⾼维的特征空间(核函数空间),并通过核函数⽅便地在核函数空间进⾏关联分析。
2.3 DCCA
KCCA⽅法虽然解决了数据的⾮线性问题,但是由于其核函数选取的不可知性,训练开销较⼤,模型较为复杂,因此DCCA被提出以解决这些问题。
神经⽹络解决⾮线性问题的时候,是通过嵌⼊每个层次的⾮线性函数来解决的,Deep CCA就是先⽤深度神经⽹络分别求出两个视图的经过线性化的向量,然后求出两个投影向量的最⼤相关性,最后求出新的投影向量。⽤这个投影向量加⼊到机器学习算法进⾏分类,聚类回归。关于DCCA的详细原理见和原论⽂[2]。
2.4 实验
DCCA也能解决⾮线性问题,论⽂中的实验室在2种数据集(MNIST handwritten digits和Articulatory speech data)上进⾏,在这两个数据集上做相关性测试。结果略。
3 2014-Cluster Canonical Correlation Analysis[4]
3.1主要思想