基于互联网的图像检索与融合
摘要
我们当前有一个系统通过带有注释的手绘图像合成一张现实的图像。合成的图
像是由与手绘图和注视匹配的某些图像精确拼接而成的,这些图像是通过网上找
到。虽然网上的图像有很多不如意的结果,但是我们的系统能够使用过滤算法来排
除不匹配的图像,从而形成一张高质量的合成图像。我们同时也提供一种新奇的图
像混合算法使精确合成得以实现。每一个混合结果都有一个数字得分,使得我们可
以找到最理想的图像合成。实验证明这个方法很成功;我们还通过两个用户的研究
结果来评估我们的系统。
图1这是一张简单的手绘草图通过精确的合成多种网上所得图片转变为一张现实图片。(a)是带有注释的草
图;(b)是一张合成后的图片;(c)是2张另外的合成图片;(d)是显示的在网上所得的一些用于合成的图片
1介绍
一张图像相当于一千个单词。常见的,人们合成图像去传达思想。一个普遍的
方法是手绘一条柔韧而直观的线。一个情报手绘图却需要专业的绘画水平,画典型
的线受到现实的限制。一个可供选择的方法叫做photomontage,这个方法是使用已
存在的图像去合成一张新的图像来传达所需传达的思想。许多商业图像编辑包,例
如AdobePhotoshop和PixelImageEditor,可以精确的合成多种数字图像。然而,
这取决于用户提供合适的图像,并且最后合成图像的质量取决于这些图像的一致
性。大量图案和结构不同的图像合成常会使得图像不尽人意。因此,photomontage
的最主要的缺点就是很难以获得合成的一套合适的图像。随着数码照相机和图像共
享的流行,数十亿计的图像可以在网上获得。对photomontage来说,这些网上图
像形成了一个巨大的图像处理池。
我们结合草图和photomontage用于现实图像的合成。图2为我们的方法提供
了一个概念。用户提供一张简单的手绘图,手绘图上面每一个场点都用文字注释。
我们的目的是将这张草图转换为一张写实的图像。为了实现这个目的,我们使用注
释在网上寻找每一个场点和背景的图像。对结果过滤以排除不理想的图像,在过滤
的过程中,每张图像都会被分段寻找与场点元素相匹配的地方,之后我们再优化过
滤后的图像使用新颖的图像合成技术以进行精确的合成。某些构成会自动的根据评
估质量进行生成和排序。然后,用户可以处理这些结果并且进行进一步的加工。
通常上,包括图像搜索,图像分段和图像合成这些阶段都是很好的研究难题。
在这里,我们一般不要求解决这些具有挑战性的难题,而是去寻求适应我们的应用
的有效方案。关键的观察是能够找出某些更符合算法的图像,并且我们能迅速的排
除任何通过自动测试后结果不可靠的图像。首先,我们保留图像以及其简单而清晰
的背景,这能极大地简化随后的图像分析过程。这种图像是通过可靠的显著性过滤
而过滤出来的背景零乱的图像而获得的,为此,自动分割将会不是很可靠。留存的
图像通常是通过大焦距或者简单背景的近距离拍摄的图像。其次,我们综合考虑内
容和轮廓的一致性以进一步的排除不合适的对象。虽然这种过滤可能会使得我们排
除完美的图像,但这并不重要,因为网络上的图像资源非常丰富。最后,我们使用
一个精心设计的算法,该算法可以处理合成图像中的大型纹理和颜色的差异。一个
更好的组合算法,扩大了候选图像的搜索空间,从而提高了生成高质量图像的机
会。
这项工作的主要贡献是提供了一个完整的图像合成的方法,这个方法依赖2个
关键因素:严格筛选不适合的图像,和一个精心设计的图像合成算法。
图2管线。每个场景都是用户手绘带注释的草图。我们在网上搜索预祝是相匹配的图片并以外形相关来选择
已找到的图片;同时,每个场景都分割为片段。我们将候选图片进行最佳组合。一些作品由用户选择的候选图
片产生。
2相关工作
源图像的场点进行分割并将其精确的粘贴到目标图像是计算机图形学上一个值
得研究的难题。Rotheretal.[2004]和Lietal.[2004]使用基于优化的图像
切割技术用于相关的图像分割。Wang和Cohen[2007]和Levinetal.[2008]
使用AlphaMatte精确的分割了透明和部分的对象。被分割的对象能精确的通过
alpha混合插入到其它图像。然而,在不同照明度下生成图像时,Alpha混合能产
生图像的伪像。为了减少结构构件,P´erezetal.[2003]通过在梯度域求解泊
松方程来合成图片。Jiaetal.[2006]通过优化混合边界来进一步改进了这个方
法。最近,Farbmanetal.[2009]在没有求解那个泊松方程的情况下获得了类似
的组成结果。所有这些工作旨在尽量减少源和目标图像的组成物件。相比之下,我
们的工作也是要求选择合适的组成简单的图片。在搜索这些图片的过程中,我们请
求对各种各样的输入图像进行分割和混合,并且评估这些组合的质量以找出最佳组
合。
通过指定其内容来组成图像,我们的工作还属于内容识别的图像合成领域。几
个领先的工程存在于这个新兴领域。在图片选择时,这些工作使用一系列完整的算
法来利用大量不同的语义信息。HaysandEfros[2007]使用数以百万计的网上图
像来完成一张图像的残缺部分。通过低级的场景描述来检查图像的一致性。用户无
法控制已完成区域的内容,因为高层次的语义信息没有使用。同样,Eitzetal.
[2009]设计了一个草图界面用于在拥有百万计图像的数据库中进行图像的检索。
与草图梯度相类似的图像被选择用于合成。他们的方法没有用到文本注释,因此,
相对来说,在草图和图像选择时,需要更多的用户交互。此外,他们的梯度域组成
包括了人工痕迹。Diakopoulotal.[2004]和Johnsonetal.[2006]在一面
空白画布或者一张图像上的某些区域指定一些场景内容。这些区域被具有指定内容
的图像所占有,这些指定内容来自于自动标记和分割的数据库。这些图像结果的质
量依赖于数据库的质量,在他们的案例中,这些分割往往不可靠。Lalondeetal.
[2007]使用了一个高质量的分割数据库。他们还评估相机姿态和光照条件以选择接
近自然的图像进行合成。然而,建立一个用于许多场景的有大范围的照明条件和照
相机姿态的图像数据库是相当有挑战性的。从[HaysandEfros2007]到[Lalonde
etal.2007],增长的语义信息被用于图像选择。一般说来,使用更多语义信息的
方法能产生更好的结果,正如更多的信息被用于选择合适的图像。另一方面,使用
的语义信息越少会潜在的使得更多合适的候选图像不被发现,因为图像选择受限制
程度不够。
我们的方法在使用语义信息上比Johnsonetal.[2006]多而比[Lalonde
etal.2007]少。我们准确的计算分段,但是不考虑相机姿势和光照条件。这是因
为一个正确的分割对于避免不完整的图像对象来说是至关重要的,然而,光照的不
一致能被一个合适的图形混合算法解决。因此,我们的方法综合了生成一张高质量
合成图片的好处(综合了前两者的好处)。与以前的工作有所不同,在图形选择
时,我们综合考虑用户绘制的草图场景元素和文本注释。场景元素的外形对于排除
不合适的结果是非常有效的,正如后来的说明(表1)。此外,外形提供了直观的
用户界面,并且确保了一个最终如用户所愿的合成图像。我们的方法另外一个独特
的特征是寻找候选图像不是在整个因特网而是一个巨大的但是有限的数据库中。使
用网上图像的好处就是许多图像都是可以使用的。因此,我们能得到足够的符合算
法的图片来简化过滤。
我们的工作也跟基于内容的图片搜索相关。Smeuldertal.[2000]提供了
这个领域的一份综合调查。更多最近的进展能在[Fergutal.2005]上看到。在
所有工作中,我们着重指出[Jacobtal.1995;Rajendran和Chang2000]的
工作,他们也利用用户绘制的草图来进行图片搜索。与基于内容的图片搜索不同,
我们不要求完成每个所得图像的准确理解。实际上,我们的难题容易得多,因为在
图像搜索结果中,我们仅仅只需要一张能够理解的图像就行。
3用户输入
用户在屏幕上画草图来指定某些场景。通过预设,每一个场景元素都使用一个
椭圆行表示。用户拖拉这些椭圆来改变目标图像的布局,并改变大小以使其与场景
相适应。用户也可以随意的为每个场景元素画一个外形轮廓,每个场景元素都配上
注释,这些注释在后来用于搜索。注释可以是名词,如“狗”或者“苹果”,或者
是一个带有形容词或动词修饰的名词,如“狗跳跃”或者“红苹果”,用来确定一
个更加精确的搜索。搜索出来的图片立即显示在用户面前,在有需要的时候允许用
户进一步精确注释而再次搜索。背景是带有注释的一块空的画面。一般来说,我们
要求背景是张风景画。一个典型的注释可以是“草地”,“沙漠”,“海滩”,
“山岭”等等。通过预设,海平线被设置在背景的中间高度处,用户也能按照自己
的要求来设计海平线。用户也能够使用给定的图像构件来代替搜索的图像以形成场
景元素和背景,这就使得用户能够再利用已经存在的图片。
4候选图片选择
只要草图画出来,系统就会按照给定的注释来寻找候选图片用于合成图像。
网络搜索往往会产生不合适的图片结果。我们用一种新的过滤技术来处理这些结果
图片,为每个场景元素和背景提供一小部分候选图片,典型的数据是场景元素是
100张而背景是20张。
4.1背景图片选择
我们将背景限制为风景画从而使得选择简单些。成千上万的图片能用目标注
释检索到,我们根据两项准则来从这些图片中选择候选图片。首先是图片的跟注释
的内容要相一致;第二就是图片应该很清晰整洁并且有足够的空间用于图片合成。
基于内容一致性的过滤方法我们的这个方法是由[Ben-Haimetal.2006]给予
灵感而设计的。相同内容的背景图片往往有相似的图像。例如,海滩照往往有黄沙
和蓝天;草地图往往有绿草。如果我们将所找到的图片放到一个表象特写空间,我
们会发现具有相似内容的图片会聚集在一起。我们假定假定最大的图片簇是由符
合注释的内容相关的图片组成。在我们的实验中,我们使用在LUV色彩空间的直方
图作为图片特写。平均转换集群[Georgescuetal.2003]被用于在特写空间寻找
图片簇。内容的一致性被计算出来,作为与最大的集群的正常化的马氏距离(这
个距离是线性表示的,所以最大和最小距离分别用1和0表示)。从开始的1000
张图片之外,我们选择选择100张最小马氏距离的图片为下一阶段做准备。
基于图片区域整洁的过滤背景图片应该与画布进行校对使得地平线在相同的位
置。这种校对的措施是用于确定不同背景图像上的场景元素的位置。为了执行校
对,如[Saxenaetal.2008]中,我们为每一个候选的背景图片使用平坦地面计
算得到其地平线。对于在地平线上与画布有很大差异(大于30%的图片高度)的图
片,应该排除。对剩余的图片我们做进一步处理,保留拥有许多相同区域的图片,
这些图片来自于场景元素合适的背景。我们将每张图片分段,并且计算覆盖有场景
元素的凸出外壳的分段个数。总数越低就符合越一律的背景。任何标准的分割算法
都可能被使用;我们使用[FelzenszwalbandHuttenlocher2004]中的方法。分
段数统一的取值为0到1之间;使用间距为0.3的内容过滤算法的分数,即马氏距
离来排列保留下来的背景图片,我们可以看到,这些统一的总数是线性相关的。最
高的20个作为最后的候选图片。我们的背景候选图片处理过程如图3所示。
图3背景和场景图片过滤。(a)是背景过滤。从上到下是:关键字“树”所搜到的图片,内容相关过滤后的图
片,整洁区域过滤之后的图片(最后的背景图片)。(b)-(d)是场景过滤。从上到下是:由关键字“男人投
掷”,“飞盘”和“狗跳”搜索到的图片;显著性过滤之后的图片;外形一致性过滤之后的图片;内容一致性
过滤之后的图片(最后的候选图片)。(e)是关键字“狗”和跟(d)相同草图得到的搜索过滤结果,说明了注释
的重要性。
4.2场景图片选择
首先过滤场景图片以排除那些自动分析不合理的图片。然后,从形状和内容的
一致性一起检测来进一步的提炼被选择的图片。
显著性过滤所发现的图片中有些具有清晰简单的背景。自动分析对于这些图片
非常可靠的,所以我们排除所有背景复杂的图片。我们标出具有清晰背景的图片,
图片场景自行的做出清晰可见的标示。从而,我们计算出每张所得图片的高显著性
的区域。多种显著性测试算法在[Liuetal.2007]和[HouandZhang2007]中有
阐述。我们由于准确性而选择以前的图片,虽然新的图片具有更好的运行效率。正
如背景过滤所为,我们将每张图片分割并且围绕高显著性区域计算小范围(30像
素的范围)内的分段总数。如果在这个范围内的分段超过10个,我们就认为这张
图片太复杂而进行排除。
场景分割在没在一张保留下来的图片中,我们使用抢切算法[Rotheretal.
2004]分割出每个场景。我们对高显著性的区域进行形态扩展并且对这个扩展之后
的区域使用抢切算法。有时,这种扩展的区域不会覆盖完整的场景。因此,我们迭
代使用扩展之后抢切的方法直到分段的边界不再改变或者完成迭代20次为止。在
图4中,最上面的一排显示了多种以红色矩形标记出突出区域的场景图片。第二排
是显示的基于显著性分割提取出来的图片。作为比较,我们在第三排里面显示了一
般分割的结果。我们的方法往往能得到更好的分割,这种分割有利于后来的过滤。
达到这种效果的原因是由于我们只是处理了那些“算法友好”的图片。
外形一致性的过滤如果场景用用户指出的侧影,我们就得另外使用外形匹配技
术去过滤剩下的图片。我们检测用户绘制的外形跟场景外形(使用基于显著性分割
算法)的一致性。由于分割往往产生相接近的图片区域,所以我们通过形态相关处
理将用户绘制的外形转化到相接近的区域。我们使用[Belongieetal.2002]提到
的形态上下文相关的方法来衡量两个外形的一致性。我们首先在每个外形上抽取一
些点作为样本,然后得出每个点的状态信息。对每对相应的样本点进行比较,然后
得出分数,这些分数是对相应样本点不同的外形信息的总结。得分在相似点上是最
小的,这些最小的值被认为是最终的相一致外形。一致性分数被规范在0到1之
间,在这个范围内,最一致和最不一致的图片的取值是0和1.分割的场景以这种
分数进行排列,并且取这些排列在500到3000之间的图片。
内容一致性过滤在这里使用的是与使用于背景图片相似的内容一致性过滤方
法。我们将取出的场景放到一个特写空间用于均值漂移集群。我们考虑所有拥有超
过5%的图片包含相关内容的集群,而不是仅仅依赖最大的集群,因为场景相比于
背景来说,表象更多样些。每一个被分段的场景都分配一个内容相关指数,这个指
数是它与特写区域内的集群中心的规格化的马氏距离。我们将这个指数与外形相一
致的指数相联系来选择候选场景图片。初始指数值为0.5。用户可以增加这个值来
突出这个外形或者另外的表象(例如,对于并不是注重颜色匹配如“男人投掷”和
“狗跳”,我们可以将外形匹配的指数设置为0.8)。图3(b)–(e)中的结果显示
了这种过滤方法的效果。
4.3过滤性能
从网上已得的图片中过滤是件富有挑战性的难题。在我们的系统中不解决这个
一般的难题,而是设计一个特定应用的解决方案。我们使用严格的标准以一个低的
错误率来选择一小部分候选图片。这里我们提供一些过滤的统计数据。我们手动检
查对于关键字“狗跳”而选择的图片的合适程度。在最初系统返回的100张图片
中,只有35%的有价值(一条拥有指定外形的狗)。换句话说,错误率高达65%。
在一次显著性过滤,外形匹配过滤和内容匹配过滤之后,这个错误率变为66%,
21%和15%。记录得出外形匹配过滤是减少错误率的有效方法。在表1中可以看到
其他场景的相似数据。
我们想重点突出本系统的2个特点。首先,我们指出适当的动词,例如“投
掷”和“跳”,对于过滤的限制条件是很有帮助的。作为对比,我们使用同一张
“狗跳”草图,仅仅用“狗”这个词来试验。相应的过滤结果在表1和图3(e)右
栏中显示。我们执行过滤之后,错误率仍然很高(高达68%)。其次,正如表1中
所示,显著性过滤对于减少错误率不是很有效,然而,这对于我们整个过滤过程是
非常重要的,因为这能保证被丢弃的背景复杂的图片也进行好的分割。这些分割在
外形过滤的时候会用到,这个过程能显著减小错误率。因此,显著性过滤有助于选
择“算法友好”数据而不是直接减少错误率。我们也在实验中试着不做显著性过
滤,但是错误率却增加到40%以上(这个数据在有显著性过滤之前在30%以下)。
记录显示大多数网上图片都是非“算法友好”的。手动检测得出只有1/3的“羊”
的图片和1/15的“摩托车骑手”的图片拥有简单的背景。然而,由于网上图片资
源丰富,我们总能找到足够的图片进行下去。
5图像混合
我们将每个场景和背景的候选图片进行优化混合到一张图片中。在原理上,我
们应该选择任何已存在的混合算法来对相应的图片合成进行优化。然而,简单的混
合技术对于合适的合成并不起作用。我们新的方法是一种包含2个步骤。首先,我
们优化边界混合并且对边界的像素分配一套值为M1或者M2的指数,以指出像素的
材料和颜色是否相一致。其次,通过解改进的泊松混合方法和alpha混合方法来计
算混合的结果。在阐述我们的方法之前,我们简单的回顾一下已存在的混合技术以
引出我们的方法。
先前技术的缺点先前主要有2种精确图片合成的方法,称为alpha混合和泊松
混合(最近在[Farbmanetal.2009]提出的混合方法与泊松混合类似,但是效果
更好)。一般来说,alpha混合无法处理图片间的光照变化;另一方面,泊松混合
对于结构和颜色的分析效果不好。图5中就是这些难题的例证,(a)中的2张图片
是被混合的。图5(b)显示了在[WangandCohen2007]提出的方法下,我们所做出
来的alpha混合结果。由于对于不同的人光照不一致,使得结果看上去不合适(男
人在暗的环境下,孩子在明亮的环境下)。图5(c)突出了由泊松混合引起的结构
混淆和图像变色。正如急速移动的区域里面显示的效果一样,结构混淆是由于将草
贴到了空中,这种结构是不相同的。变色,即加入蓝色的色调,这是由天空跟角色
之间巨大的颜色不同所引起的。Lalondeetal.[2007]通过要求混合结果接近原
照片的方法来减少变色。然而,这个方法受阻于亮度的不一致,正如图5(d)所
示。当在原图片跟目标图片的光照条件不同时,要求结果接近原图片将造成光照不
一致,正如(b)中的alpha混合结果。
5.1混合边界优化
我们首先优化混合边界,我们对场景的分割外形使用20次形态扩展,从而得
到一个初始的混合区域Ω
0
,然后对Ω
0
的混合边界进行优化。优化能:1)得到一个
理想的混合区域Ω⊂Ω
0
;2)在Ω中的每个像素分配值M1或者M2。M1由结构和颜色
一直的像素组成;M2由其他的像素组成。
我们的优化算法在超级像素上操作很有效率。我们使用过分割技术将源和目标
图像分割成超级像素。我们的目的是产生最理想的超级像素链来装入场景,这条链
应该以最适应的混合方式穿过超级像素点,这种方式是以结构和颜色一致性的混合
耗费为标准的。结构一致性是由源和目标图像之间的Gabor特征向量[Manjunath
andMa1996]来衡量的。颜色一致性归结为像素不同紫外线颜色分量的不同的总
数。一个超级像素点的全部一致性是:
在这里∆Gi,∆Ui是Gabor特征差异和像素色差总和。σg,σu是所有超级像素上
||∆Gi||和||∆Ui||的方差。w1是一种组合权重,在这篇文章中都设置为0.7。如
果混合成本低于阈值T1(这个实验设置为0.5),我们就认为泊松混合在这种超级
像素上是安全的并且使用Fp
i
作为其混合代价。在这种情况下,我们暂定分配超级
像素为M1,否则分配为M2,并且其混合代价由matting的可行性作为替代来衡
量。Matting在高度结构化的区域很难实现。对于跟背景颜色类似的对象也是难以
matting的。因此,matting的代价用一下工时衡量:
其中,表示结构的复杂性,它是源图像超级像素i的梯度的平均幅度。
是超级像素i跟分割场景的色调直方图之间的L2距离。w2在实验里面设置
为0.5。超级像素i的混合成本定义为:
现在,每个超级像素都与混合代价相联系,对于任何的相关链Φ,我们都能计算其
总代价最为其包含的所有超级像素点的加权的成本总和,即:
其中,权重ci表示超级像素i与场景中心的角度。我们使用编程来计算最理想的
链。为了确保链包围场景,我们在基于显著性分割的外形与∂Ω0之间狭窄的条纹
之间来优化链。这个条纹在图6(a)中显示,条纹上的每个元素都是超级像素,并
且白色的链就是优化的边界。
在最理想的链确定之后,我们将所有超级像素装入M1,并且从混合中排除外
面的超级像素。对于链上超级像素分配M1和M2是不变的,分配在图6(b)中所
示,其中黑色的区域是混合排除的超级像素,红色区域是M2,绿色区域是M1。然
后,一个理想的像素混合边界由链上的每个超级像素计算得到。对于像素M1,我
们使用[Jiaetal.2006]中描述的方法进行边界混合优化。对于像素M2,边界像
素设定为较小的alpha值,例如α=0.001。
5.2混合
现在我们完成由混合区域Ω,M1和M2确定的成分。首先,我们通过一种在梯
度域改进的泊松混合方法来计算一个中间值;其次,通过alpha混合方法再与
目标图像混合。
改进的泊松混合常规的泊松混合能够安全的适用于像素M1,然而,在M2中却会
造成假象(如“结构混淆”和变色)。所以,我们改进了在像素M2下的泊松算
法。我们在像素M2中使用matting来来分离源图像的前景和背景层次,并且将前
景层次用于混合。在像素M2的边界上,我们要求其分离出来的前景层次的梯度与
相同。总之,中间结果计算如下:
其中
其边界条件如下:
其中,分别代表源和目的图像。是源图像分离出来的前景层次,并且Γi
=∂Ω∩Mi,i=1,2,是像素Mi的混合边界。
Alpha混合在得到之后,最终的混合结果计算如下:
是在M2上计算的alpha值。
这个混合方法的一组结果如图5(e)中所示,混合边界覆盖在图片上。边界上红
色部分代表Γ
2
,其中梯度是固定的。边界上绿色部分代表Γ
1
,其中的值
是固定的。我们的方法不受“结构混淆”和变色的约束,并且粘贴的图片在一个类
似的关照下跟目标图片很相似。
6图片合成优化
即使使用我们的混合方法,也不是所有的图片都能无差别的混合。结构和色调
相似的图片更适合混合。在这一节,我们为图像的合成优化我们的候选图片。我们
使用最低成本的Cchain(见5.1节)作为我们合成两张图片的可行性衡量标准。为了
证实这个衡量标准,图7显示了不同混合代价下的同个场景的不同合成图片。从左
到右,我们显示了4张混合代价分别是0.2,0.4,0.6和0.8的作品。很明显,较低
的混合代价会使得合成假象更少见。原则上说,我们愿意去检查每个候选图片,并
且选择最小代价的图片。一般说来,我们有100张候选场景图片和20张候选背
景。完成所有的计算需要运行混合边界优化20*100K次,其中K是场景总数。幸运
的是,场景常常在图片上面不是重叠的并且可以自由的优化,这就将合成次数减少
到100*K*20。我们能详尽搜索所有的合成并且根据合成代价来进行排列,排列的
前十个陈列出来给用户选择(我们也可以要求同一个候选图片最多出现2次以增加
合成结果的多样性)。
7互动细化
我们的系统能自动的组成由合成代价排列的多种图片。用户可以选择一张合成
图片然后交互的改进它。用户的交互包括:1)选择一张场景都可以接受的图片;
2)对自动分割进行提炼精取。第一步是必须的,因为由于图片过滤的差错,自动
合成的图片会包含不正确的场景信息。此外,显著性分割有时也需要改进。例如,
场景的伸展部分可能会被自动分割切掉。用户能够用[Lietal.2004]或者[Rotheretal.
2004]中的方法对分割进行提炼。图8显示了图9第一排例子的自动合成图片。2
个绿色边框的图片的场景有错,红色边框的图片中3个圈中的地方就是提炼的表
现。
8实验和结果
我们用几个例子检测过我们的系统。使用一张胡乱画的草图,我们的系统能够
生成多种写实的图片。为了在这篇论文中生成结果,我们的系统从fl,
和上自动下载了3000张场景图片和1000张背景图片。在
这些图片中,100和20张候选图片分别被选择作为场景和背景,从而将图片减少
到可以管理的数目。在下载的时候我们就开始计算显著的区域和执行分割,计算的
进程是并行处理的。通常情况下,通常花15分钟来处理场景图片(包括下载和过
滤),花3到4分钟处理背景。图片合成优化也是并行处理的,大约花费1分钟。
对于生成论文中的结果的所有执行时间,包括下载和分析,共有15n+5mins,这里
的n表示场景的个数。我们所有的实验都是在2.66主频的CPU和6GB内存的2
台计算机上完成的。
合成结果图1是我们合成的一个婚礼图片,其中(a)显示用户输入的草图和注
释,(b)是用户精致的合成图。在(d)中显示了每个场景的候选图片,所有这些图片
都跟注释是内容一致的并且与草图外形相似。然而,这些图片的光照条件和背景的
变化很显著。我们的混合方法的力量就是使得我们能够合成这些有挑战性的图片,
这个算法确保了找到合适的合成图片的很高的可能性。另外两个低混合代价的合成
结果见(c)。
进一步说明的例子如图9所示,其中我们突出的说第一排。在这排中,包含场
景之间的相互作用和影响。正如第四节里讨论的一样,如果场景潜在的拥有广泛的
形态范围如人和狗,那么最好就加上一些额外的修饰词来限制场景,如“男人投
掷”,“狗跳”。在实践中,用户可以首先用注释进行搜索,然后再根据返回的图
片画一个外形。对于这个方法,所有的候选图片和前十个自动合成的图片如图3和
图8中所示。有趣的是这种合成的优化也排除了一些不正确的候选图片。例如,候
选背景图片中的鸽子图像和飞盘候选图片中的太阳图像都因为不能很好的混合而被
排除。我们在这里给出在前十张自动合成的图片中包含不正确场景的图片数目,图
1中有4张,并且图9从头到尾分别有2,3,5,6和3张包含不合适场景的合成
图片。
用户研究1我们设计了2个用户的研究来评价我们的系统。在第一个用户研究里
面,我们测试我们系统的效率和合成质量。选择十个对象,其中有9个人是蒙太奇
的新手(对于我们的系统和PS),另一个是PS高手。我们将9人分成3人一组,
组A提供PS;组B提供我们的混合技术,使用一个用于互动合成的拖拉界面;组
C提供我们的完成的系统。另一位专家也提供PS。每一组都提供20分钟用于学习
相应的工具。
研究包括两方面,研究中对象必须根据文字的描述来生成一张图片。第一个任
务是对象要尽可能的生成最好的结果。第二个任务是给30分钟,对象再产生一个
结果,花费在搜索和合成的时间另算。每个合成的作品给予五位评价者(不包括被
选对象)进行评分(分数是1到5,分越高质量越好)。
某些合成图片如图10所示。我们在表2中总结了用户研究的结果。我们首先
对比A和B来评估我们的混合算法。B使用了我们新颖的混合算法,在两个任务
中产生的结果都比A中生成的好。由作用时间IT可以看出,B的花费时间也比A
少些。其次,我们将B和专家与C对比来评价候选图片的搜索和过滤。在任务1
中,两组都产生了高质量的合成结果;然而C只花费了45分钟中来产生结果,B
却花费了64分钟。在C花费的45分钟中,实际的用户作用时间少于6分钟,然
而作为对比,B花费了59分钟来寻找合适的图片以及另外5分钟用于合成。最后
一组的专家只花了18分钟来产生同样的结果。虽然他花的时间比C少,但是他个
人的作用时间较C长。在任务2中,C的混合质量(4.6分)比B(3分)的高,
因为B不能在分配的时间里找到合适的图片。专家跟C用一样的总时间22分钟来
得到了质量类似的结果,然而,C只需要4分钟的用户时间。我们同样能从用户研
究中得到我们的系统对于不同的用户输入有很高的健壮性。例如,“狗跳”的草图
在对象之中变化很显著,但是我们的系统总能将错误率降到20%以下,来确保一
个成功的图片合成。
用户研究2接下来,我们测试我们的系统能否成功的生成新图片。选择四个对
象,都是我们系统的新手。20分钟的介绍之后,要求其中一个人提供15张图片的
合成任务,其他三人就负责用我们的系统来合成这些图片。用同样的方法来评价这
些合成作品。在最后生成的45张合成图片中,35张被认为是成功的(平均分大于
3。其中某些图片如图11所示。
图11用户研究2的合成结果。红色边框的图片是一个失败的例子
9局限性
基于内容的图片合成是非常有挑战性的难题,在这里,我们详述一些对我们系
统其负面作用的一些因素。首先,我们的过滤任然是受限制的,对于风景背景,我
们的过滤方法很有效,但是对于室内的情况就不尽人意。场景过滤也受限制,如果
某些场景的错误率太高会使得图片合成失败。图片中场景太多会增加失败率。一般
来说,一个图片里面包含2到3个场景,那么在前十张合成图片里面就有大约2到
6个是不正确的图片。用户可以调整关键字和草图来改进结果。然而,系统不能从
错误中自动恢复,一种潜在的改进图片过滤的方法就是采用[Eitzetal.2009]中说的
素描与形象的描述,这个描述与原图的描述进行梯度概述的匹配。然而,这也需要
更加细心的草图描绘。其次,有时合成作品的瑕疵是很明显的,因为不同的场景对
象做的设计不同,我们不将摄像机姿态作为照片选择的元素。这个难题的例证如图
12的左边所示。汽车的透视图跟公路的不同,如[Lalondeetal.2007]中所估量的摄
像机姿态能够避免这些失败。第三,很成图片包含了场景之间不正确的闭合影响。
这种情况发生在背景图片前层包含某些薄的对象之时,例如,在图12中间的那坐
灯。在这些东西上面覆盖场景就会造成错误的包含体。最后,场景之间的规模是由
用户指定的,而且又是难以置信。例如,图12(c),小狗相对于狗窝来说太大了。
10总结
我们提出了由任意带注释的手绘草图生成实际图片的方法。对于这个结果,我
们有2个关键的贡献。首先是我们使用了一种新的过滤方案来选择简单背景的图片
而排除不可取的图片。其次,我们使用了新颖的混合方法来生成改进的合成图片。
后者也提供了合成质量的数字衡量,以自动的选择最理想的合成图片。
鸣谢我们感谢所有发表意见的评论者。这项工作由中国国家基础研究项目(项
目号是2006CB303106),中国国家高技术研究与发展方案(项目号是2009AA01
Z330)和FDCT(项目号是008/2008/A1)提供。谭平由新加坡财务汇报局支持
的。
本文发布于:2023-02-04 18:37:10,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/fan/88/188616.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |