多模态数据挖掘的应用
焦隽∗
(南京大学计算机科学与技术系, 南京 210093)
The application of multimodal data mining:A survey如何提高课堂教学的有效性
Jun Jiao*
(Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China)
景点英文
Abstract: Nowadays, m ultimodal data available to us through the Internet and other electronic media are explosively increasing both in number and in variety. Efficiently analyzing the data will save people a large amout of time. However, due to the property of multimodal data, methods ud to uni-modal data usually perform ineffectively here. To handle such massive multimodal data for various purpos, new technologies are in need of development.Data Mining helps people find a potentially uful knowledge from Massive Data, and play an important role in many fields. Data mining could only handle simple text data in the past. After veral decades of development, data mining can deal with the multimedia data with complex structure now. Multimedia data is a sort of multimodal data. Some fu
sion and cross-media data mining algorithms can be ud to mine multimodal data effectively. Bad on the data mining approach to the task of analyzing multimodal data, this paper briefly introduces veral methods fitting for multimodal data mining.
Key words: multimodal; data mining
摘 要: 目前人们通过网络和其他电子媒体获得的多模态数据在数量和类别上都在飞速的增长。如果能对这些数据进行高效的分析,将为人们节省大量的时间。但是由于多模态数据本身的独特性质,许多传统应用于单模态数据的分析技术将无法有效的对其进行挖掘。因此人们需要新的技术来处理各种场景中大量的多模态数据。数据挖掘作为一种帮助人们从海量数据中发现潜在有用的知识的工具,在很多领域发挥了重要的作用。经过几十年的发展,数据挖掘已经从原来只能处理简单的文本数据,发展到为可以处理结构复杂的多媒体数据。多媒体数据是一种特殊的多模态数据,多媒体数据挖掘中的许多方法都利用到了目前挖掘多模态数据的核心思想。本文从数据挖掘的角度来分析多模态数据,对目前适用的几种多模态数据挖掘技术进行了简要介绍。
关键词: 多模态;数据挖掘
中图法分类号: TP301文献标识码: A
1 引言
近几十年来,计算机运算存储能力不断提高,数据产生和采集的速度也越来越快,因而数据量越来越大;而与此同时,人们面对巨量数据,能够直接获得的信息量却越来越有限。单纯的人力已经很难胜任对这样巨
∗作者简介:焦隽(1986——),男,湖南长沙人,硕士研究生,主要研究领域为数据挖掘,机器学习;
洒脱是什么意思
2 掘。
量的数据进行分析并提取出相关信息的任务。为了解决这种数据与信息之间的矛盾,数据挖掘应运而生。所谓数据挖掘,即从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[2] 。数据挖掘的目的就在于找出巨量数据中的潜在规律,以对未来的分析和决策提供支持,其在分析处理中的优势以及结论的正确性、有效性已经被越来越多的实践所证明。数据挖掘可以处理各种各样形式的数据,包括关系数据库、数据仓库、事务数据库中的数据,面向对象数据库、对象关系数据库以及空间数据库、时序数据库、文本数据库和多媒体数据库等面向应用的专用数据库中的数据,以及普通文本,互联网中的数据在内的各种数据都可以作为数据挖掘的对象[2] 。随着多媒体技术的广泛应用和数据收集技术的发展,计算机应用领域中出现了大量的多模态数据,数据挖掘中与之对应的技术被称为多模态数据挖本文中将对多模态数据挖掘进行简单的介绍。本文其他部分组织如下:第二部分简单介绍多模态数据挖掘中的基本概念;第三部分介绍多模态数据挖掘中的两个主要应用领域;第四部分对于多模态数据挖掘中的两个问题进行了简要讨论;第五部分总结。
2 多模态数据挖掘的概述
2.1 什么是多模态数据
多模态数据是指对于一个待描述事物,通过不同的方法或角度收集到的数据。我们把收集这些数据的每一个方法或视角称之为一个模态(Modality )。
例如,在多模态的人脸识别中,多模态数据有可能由人脸的2D 图像和3D 形状模型这两个模态构成;在多模态的视频挖掘中,视频可以被分解为字幕、音频和图像等模态;网页中的文字和图片也可本看作不同的模态,它们从不同的角度描述了网页所要表达的信息。
在多模态数据中,每个模态均为其余的模态提供了一定的信息,既模态之间存在这一定的关联性。多模态数据挖掘与传统数据挖掘的区别在于前者在进行挖掘工作时将综合利用到多个模态之间的信息,挖掘它们之间的潜在联系。
2.2 为什么要挖掘多模态数据
随着计算机科技的飞速发展,在各种计算机应用领域遇到的多模态数据也逐渐增多,这主要有两方面的原因:
(1) 伴随着多媒体技术广泛使用,人们的日常生活中出现了大量的多媒体数据。,如果将每个媒体源均可
被视为一个模态,则多媒体数据正是一种特殊的多模态数据。
(2) 在数据收集领域的发展使得人们可以通过更加复杂多样的手段对事物进行描述。比如在人脸识别中,
tts是什么意思3D 扫描技术的发展为传统的人脸数据中加入了3D 模型结构这一新的模态信息。
基于以上两点,多模态数据的大量应用是一种必然的趋势。因此如何能够有效的对多模态数据进行挖掘是计算机应用技术中的一个十分值得研究的问题。
2.3 多模态数据挖掘中的关键问题
目前对于多模态数据的挖掘中存在着两大关键问题:
(1) 如何有效挖掘与描述不同模态信息之间的关联性。多模态数据与传统数据最大区别就在于引入了多
个模态之间的关联性,因此对于这种关联性的挖掘是传统数据挖掘中所没有考虑到的一个重要问题。
datasource
(2) 如何将基于不同模态的挖掘结果进行整合。即使数据挖掘系统能在每个模态中都获得很好的性能,
如何有效地将这些挖掘结果进行合并仍然是一个十分复杂的问题。
3 多模态数据挖掘的应用
本节主要介绍目前多模态数据挖掘应用比较广泛的两个领域:多模态视频挖掘,多模态Web 挖掘。通过对这个领域中核心挖掘技术的介绍,读者将了解到多模态数据挖掘中的主要思想。
3
i
由于本文的主要内容是对于数据中多模态信息的整合与运用,而并非对于单个模态信息的处理,所以本节中将跳过对于基本的文本、图片和视频处理技术的介绍,并假设读者对这些内容已有初步的了解。
3.1 多模态视频挖掘
传统的视频挖掘技术通常仅使用视频数据中的视觉信息进行挖掘。由于视觉特征无法十分有效的表达
语意信息,因此这种方法受到了很大的局限性。视频作为一种多媒体数据,其本身含有丰富的多模态信息,可以用来自不同媒体源的特征进行表示。
传统的多模态视频挖掘技术首先提取视频中的视觉、音频和字幕等特征,然后利用这些多模态信息之间的相关性与互补性对视频数据进行比传统单一模态技术更为有效的挖掘。用d 1,d 2…..d m 表示从m 个媒体源提取的特征。基于对这些特征使用方法的不同,多模态视频挖掘主要可以分为联合分布和多模态融合两类。
3.1.1 联合分布(Joint distribution)
基于联合分布的视频挖掘技术将从不同媒体源提取的特征信息d 1,d 2…..d m 组合成新的特征:
(d 1,d 2…..d m )
,然后在新的特征空间上进行对视频的挖掘。 3.1.1.1 参数模型(Parametric Model )
参数模型是对新特征空间上的概率密度进行估计的一种方法。该方法先用若干参数刻画出一个模型,然后假设音频和视频的联合分布满足给定的参数模型,并从已标记样例中估计出这些参数。
[4]中将视觉和音频信息从视频中提取出来,利用参数模型的方法对音频信号在视频画面中对应的发生区域进行了挖掘。
3.1.1.2 特征空间转换与非参数模型
[5]中指出[4] 中基于参数模型的方法有表达能力太若,因此无法准确刻画出音频和视频信息之间的联合分布,并且提出了一种不基于参数(nonparametric statistics )的新方法。
v N v V 该方法首先将音频和视频的联合特征向量映射到一个低维子空间。设∈ℜ 和分别为维的视频特征和维的音频特征在时间i 的采样。i v N v
v N M a N a A ∈ℜ a N :v f ℜℜ:a a N M a f ℜℜa v a 和为高维空间向低维空间的映射函数,控制f 和a f 的参数分别为:v α和a α。v α和a α的值满足:
{','}arg max ((,),(,))v a v v a a I f V f A αααα=
其中I(a,b)表示a 和b 之间的共有信息(mutual information )。在映射完成之后,通过在低维空间上对于联合概率密度的估计来完成各种挖掘任务。由于最大化共有信息的降维方法有效的减少了联合概率分布的复杂性,因此在低维空间上可以获得比原来高维空间中更为准确有效的密度估计。
pos基于联合分布的挖掘技术的主要缺陷在于多个模态信息的联合特征一般都具有很高的维数(cur of dimensionality),因此无法有效的完成从高维的向量空间向语意空间的映射,而且在处理速度方面也受到制约
[8] 。
3.1.2 多模态融合(Multimodal Fusion)
随着多模态视频挖掘技术的发展,随之出现的多模态融合技术有效的解决了联合分布技术中向量的高维度问题。
多模态融合的方法对于从不同媒体源提取的信息d 1,d 2…..d m 分别建立相应的模型,然后把各个模型在自身模态上的输出结果按一定方式进行融合,得到系统最后的输出结果。具体融合参数的确定一般通过在训练数据上的学习来完成。多模态融合技术几乎总是能提高视频挖掘的性能[3] 。
按照融合方式的不同,多模态融合主要可以分为:乘积组合(Product Combination ),线性融合((Linear Fusion),非线性融合(Non-linear fusion )。
4
anxiously
offt(|)i P d h 3.1.2.1 乘积组合 如果假设各个模态之间的信息是独立的,并且我们可以准确的估计出每个模态的后验概率(posterior probability ),用D 表示待挖掘的多模态数据。那么由贝叶斯理论可得:
1(|)()i i P D h P D ==n n C W W C ()(|)
m P h P d h ∏
然而在现实的多模态数据中,模态之间的独立性假设一般都无法满足,并且我们无法较为准确的估计出每个模态的后验概率,同时由于计算过程中乘法运算对于噪声的敏感性,所以该方法在很多场合均无法适用。
3.1.2.2 线性融合
设每个模态对应的分类器输出结果为C 1,C 2…..C n ,则线性融合的输出结果为:
++=i e you是什么意思
W1,W2….Wn 为每个模态在最后结果中所占的比重,如何确定这些参数是线形融合中的关键问题。 在[1] 中,视频中的视觉、音频和文字信息分别被看作一个独立的模态。对于每一个模态训练一个相应的分类器,然后利用线形融合的方法将多个分类器的分类结果进行整合。各个分类器在最后输出中所占的权重通过用户对于系统的使用经验手动给出。由用户手动给出整合权重的方法过分依赖于用户对于系统的熟悉程度,并且无法随着查询和数据库的改变而进行调整。[9] 中将视频划分成音频和视频两个模态,利用机器学习的方法,通过在一组训练样例上最小化分类误差的方法来确定两个模态在
最后组合中所占的权重,一定程度上解决了上述融合系数的确定问题。
因为对于加法对于噪声的放大效果不如乘法,所以线性融合与乘积组合相比能更好的应噪声数据。但是由于线性融合采用的是一个线性模型,对于模态之间存在相关性的问题仍然无法准确描述。[13] 用理论框架分析了线形融合进行视频检索的平均精度,并且给出了相应的界限。他们指出为了更进一步的提高检索性能,融合技术中应该考虑到不同模态之间的相关性。
3.1.2.3 非线性融合(Non-linear Fusion)
图1
5
james taylorm n ×12,.....为了挖掘模态之间的相关性,进一步提高融合技术的描述能力,[11] 中提出了一种新的非线性融合的方法。在此方法中,多模态融合被分解为两个步骤:(1)建立多个互相独立的模态。(2)利用super-kernel 技术对这些模态进行融合。如图1所示。
在第一个步骤中,输入的数据为一个的矩阵X 。其中n 为训练样例的个数,每个样例的特征为从m 个媒体源获得的信息。建立多个互相独立的模态M D M M 12,的过程分为以下三小步:
1. 用PCA (principal component analysis )去除X 中的噪声,并且降维。
2. 用ICA (independent component analysis )获得独立特征成分的一个估计。
3. 在前两步的基础上使用IMG (independent modality grouping )获得互相独立的模态.....D M M M 12,..... M 第二步骤中使用super-kernel 技术对D M M ij 表进行融合,可以获得比乘积组合和线性融合更强的描述能力。
3.2 多模态Web 挖掘
由于多媒体技术的广泛应用,网页中普遍包含了丰富的图片、音频和视频等多种模态信息。与文字信息相比,这部分信息对于表示网页的内容同样起到了重要的作用。多模态Web 挖掘研究的就是如何利用网页中的多种模态信息来更好的完成挖掘任务。
3.2.1 基于Web的多模态图像挖掘
传统的图像挖掘技术主要利用图像的视觉信息。基于Web 的多模态图像挖掘在利用图像视觉特征的基础上,通过获取Web 中与图像相关的其他模态信息来帮助进行图像的挖掘。目前主要的Web 图像挖掘技术都着眼于拓展网页中的文本信息与图片之间的关系。
为了描述网页中文字和图像之间的相关性,目前基于Web 的多模态图像挖掘技术主要采用了语义网,图像标记和多模态相似度传播的方法。
3.2.1.1 语义网
图
2
语义网(mantic network)所描述的是单词和图片之间的相关性,其结构如图2所示。上排结点代表图片,下排结点表示表示单词。联结单词和图片的边表示单词和图片之间的关系,边上的权重w 示单词i 和图片j 之间的关联度。对于给定的检索任务,如果我们能够构造出相应的语义网,则可以利用文本信息帮助进行检索。
早期的Web 多模态图像检索系统ifind[6] 实现了一种同时利用文本与图像视觉信息的相关反馈算法。在该系统中,文字和图像通过语义网的方式进行关联。在构建语义网时,将每张图片的文件名、ALT 标签和所