本文作者:kaifamei

一种基于多模态信息的服装草图到图像生成方法

更新时间:2025-03-22 19:59:03 0条评论

一种基于多模态信息的服装草图到图像生成方法



1.本发明涉及图像生成方法领域,具体涉及的是一种基于多模态信息的服装草图到图像生成方法。


背景技术:

2.随着人们生活水平的不断提高,个性化服装设计的需求越来越多。在服装设计领域中,设计师们会在设计具体服装之前以手绘草图的形式展示他们脑中构想的新设计,然后在此基础上添加较为细节的信息,如褶皱,形成款式图,最后再为款式图上,生成最终的服装效果图。然而,原始的服装设计过程复杂,耗时耗力,普通大众很难按自己的意愿设计喜欢的服装款式。随着深度学习的发展,人工智能技术逐渐被用于辅助服装的生成,然而,现有的辅助生成方法大多都是单模态方法,其生成的服装图像太过单一。
3.传统的服装图像生成方法主要基于图像检索,这是一种间接的图像生成技术,首先利用关键词在数据库中搜索相关的图片,然后将返回的图片与草图逐一比较,出匹配度较高的图片作为生成图像。这种方法不仅需要花费大量的时间,而且对数据集的要求很高,对草图的标签信息有很强的依赖性。
4.随着深度卷积神经网络(dcnn)的发展,生成对抗网络(gan)在图像生成方面展现出巨大的潜力,这类方法将条件图像生成任务视为图像到图像的转换任务,在转换时,输入和输出之间共享草图信息,从而保证了输入图像和输出图像之间的相似度。然而,这些方法的输入大多都是单模态的,它们仅仅关注了两个图像域之间的映射,忽略了其他语义属性信息,这使得生成图像颜单一且属性不可控制。


技术实现要素:

5.本发明要解决的技术问题是针对以上问题和要求,提供一种基于多模态信息的服装草图到图像生成方法。
6.为解决以上技术问题,本发明采用以下技术方案:
7.一种基于多模态信息的服装草图到图像生成方法,包括以下步骤:
8.步骤1、将服装图像输入训练好的服装图像分层编码模型,利用服装图像分层编码模型将服装图像处理得到局部特征图与全局特征图,并利用对应的基向量空间分别将局部特征图与全局特征图进行向量量化,得到服装的全局信息编码与服装的局部信息编码;
9.将服装草图输入草图编码模型,得到草图编码;
10.将文本输入输入文本编码模型,得到文本编码;
11.步骤2、将草图编码和文本编码共同构成条件信息,与服装全局信息编码连接共同输入transformer-g,transformer-g中的掩码注意机制自动生成服装全局信息序列;将服装图像的全局信息编码作为条件信息,与服装的局部信息编码连接共同输入transformer-l,自动生成服装局部信息序列;
12.步骤3、将生成的服装全局信息序列与服装局部信息序列分别输入对应的基向量
空间中并到对应的向量,并分别转换为全局二维特征图和局部二维特征图,将全局二维特征图和局部二维特征图输入到训练好的解码器d生成最终图像。
13.进一步的,服装图像分层编码模型和解码器d的训练方法包括以下步骤:
14.步骤1.1、将图像x输入服装图像分层编码模型的编码器e,编码器e将图像x下采样到原来的1/4大小,得到包含细节信息的局部特征图z
local
,局部特征图z
local
继续下采样到图像的1/8得到包含全局信息的全局特征图z
global

15.步骤1.2、将全局特征图z
global
输入全局基向量空间v
global
,得到服装的全局信息编码z
global
;将z
global
上采样到与局部特征图z
local
相同的尺寸并与其进行残差连接,将连接后的融合特征输入到局部基向量空间v
local
,得到服装的全局信息编码z
local

16.步骤1.3、将服装的全局信息编码z
local
和服装的全局信息编码z
global
输入到解码器d,得到重建图像:x'=d(z
local
,z
global
)
17.步骤1.4、利用判别器计算总损失函数l=l
encoding
+l
fm
,其中l
fm
为判别器所有层损失值的平均值,计算判别器第t层损失值的公式为:其中n是判别器第t层的特征数,为第t层判别器提取图像x的第i个特征;
[0018][0019]
其中为求l2范数损失,||
·
||2为求平方和损失,sg[]表示停止梯度传播,停止更新该部分参数;通过最小化总损失函数对编码器e、局部基向量空间v
global
、全局基向量空间v
global
、解码器d和判别器进行训练并更新参数,训练完毕后得到训练好的服装图像分层编码模型和训练好的解码器d。
[0020]
进一步的,所述步骤1.1中,求z
global
的方法为:对于全局特征图z
global
中的每个向量,量化器q(
·
)通过最近邻算法在v
global
中到与之最接近的向量并进行替换得到z
global
;求z
local
的方法为:将z
global
上采样到与z
local
相同的尺寸并与z
local
进行残差连接,得到新的融合特征,然后通过最近邻算法在v
local
中到该融合特征图中每个位置最接近的向量并进行替换,得到z
local

[0021]
进一步的,所述步骤3中,transformer-g和transformer-l用于采用自回归预测的方法生成服装序列。
[0022]
本发明采用以上技术方案后,与现有技术相比,具有以下优点:
[0023]
本发明利用多模态信息的协同特征表示,提出了一个用于服装草图到图像的多模态生成模型。该模型将cnn多尺度特征提取的优势与transformer强大的掩码注意力机制相结合。对于服装图像,提出一个分层编码模型,并引入特征匹配损失,使得生成的服装图像纹理更加清晰。同时,提出一个duplicate-transformer学习不同模态信息之间的关联,协同指导生成具有指定属性的服装图像。在实验中,本发明的方法可以生成高度真实的服装图像,并且在属性控制方面具有更大的灵活性。经过比较,本发明方法生成图像的fid相较于最先进的基于注意力引导的单模态生成方法u-gat-it降低了24.19,is值相较于最先进的munit提升了10.73%,lpips值提升了10.8%,多样性和保真度都得到了较为明显的提升。
[0024]
下面结合附图和实施例对本发明进行详细说明。
附图说明
[0025]
图1为分层cnn和transformer融合模型示意图;
[0026]
图2为服装图像分层编码模型示意图;
[0027]
图3为自回归duplicate-transformer示意图;
[0028]
图4为本发明的方法与传统单模态方法的比较示意图;
[0029]
图5为本发明的多模态信息生成结果图;
[0030]
图6为不同服装编码方法重建的图像比较示意图;
[0031]
图7训练期间的均方误差图;
[0032]
图8消融实验结果图。
具体实施方式
[0033]
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0034]
一、服装图像生成框架
[0035]
本发明提出一种基于多模态信息的服装草图到服装图像生成模型,将cnn多尺度特征提取的优势与transformer强大的掩码注意力机制相融合,其整体架构如图1所示,主要分为两个阶段:第一阶段,各个编码器分别学习对应模态数据的编码并进行特征融合,同时,本发明针对服装图像纹理不清晰的问题,设计了一种分层cnn的编码方法,详见2.1节;第二阶段,根据第一阶段得到的特征融合编码,提出一种多模态信息关联学习模型:duplicate-transformer,从而生成具有特定属性的服装图像。该模型由一对结构完全相同的单向自回归transformer组成,用于学习不同模态信息之间的关联。
[0036]
二、多模态信息编码
[0037]
在多模态信息的编码阶段,服装草图,文本以及服装图像被用于学习对应的编码器,各个编码器分别提取对应模态数据的特征编码并进行融合。
[0038]
2.1服装图像编码器
[0039]
为了将连续的服装图像内容转换为离散的序列,本发明不再关注像素,而是使用向量量化的思想对图像进行离散化的编码。向量量化的基本思想是通过最近邻算法在基向量空间中寻目标向量的最近邻,然后使用基向量的编号来对目标向量进行编码。
[0040]
由于服装图像包含许多复杂的纹理和彩,因而需要使编码器更加关注这些细节信息。在cnn的多尺度特征提取中,不同层次的特征包含着不同的信息,一般来说,高层次的特征更注重语义信息,而不太注重细节信息;低层次的特征则包含更多的细节信息。受此启发,本发明以一种简单而有效的方式结合不同层的优势:即在不同的特征层中分别对服装图像进行向量量化,以保留更多有用的信息,为了使生成的图像更加清晰,本发明将服装的局部信息(如纹理)与全局信息(如形状)分开建模。
[0041]
如图2所示,编码器e通过卷积将草图映射到两个不同的尺寸空间,具体来说,对于一张服装图像x∈rh×w×3,编码器首先将它下采样到原来的1/4大小,得到包含细节信息的局部特征图然后继续下采样到原来的1/8得到包含全局信息的全局特征图本发明采用向量量化的思想,为模型学习两个基向量空间,其中局部基向量空
间用于编码纹理细节,称为v
local
,而全局基向量空间用于编码全局信息,称为v
global
。对于全局特征图z
global
中位置(i,j)的每个向量,量化器q(
·
)通过最近邻算法在v
global
中到与之最接近的向量ek并进行替换,其中k为索引,过程如下:
[0042][0043]
为了融合不同层的特征信息,将z
global
上采样到与z
local
相同的尺寸并与其进行残差连接,得到新的融合特征,然后通过最近邻算法在v
local
中到该融合特征图中每个位置最接近的向量ek并进行替换,得到:
[0044]zlocal
=q(z
local
+upsample(z
global
))
[0045]
最后,将两个量化后的特征图输入到解码器d,得到重建图像:
[0046]
x'=d(z
local
,z
global
)
[0047]
通过该编码器,任何一张输入图像x∈rh×w×3都可以由全局基向量空间和局部基向量空间中若干向量的组合表示,这些向量在各自基向量空间中对应的索引即为服装的全局信息编码与局部信息编码,编码损失函数为:
[0048][0049]
其中||x-x'||2为重建图像与真实图像之间的误差的平方和损失。由于量化过程不可导,训练过程中将梯度直接从解码器复制到编码器,sg[]表示停止梯度传播,停止更新该部分参数。
[0050]
实验中发现,由于服装图像四周包含许多空白区域,导致生成图像与真实图像的均方误差一开始就很低,仅为0.4左右,经过30个epoch的迭代优化后,收敛速度极慢,服装边缘部分的纹理不清晰,详见第4.5节。为了使模型在优化时能关注到服装图像的细节纹理,本发明在模型中设计了一个判别器,并将判别器原始的交叉熵损失改为特征匹配损失。特征匹配损失从真实图像和生成图像的不同尺度中提取特征,并进行“匹配”,它能关注到生成样本特征和真实样本特征之间最显著的差距,如特征空间中纹理的差异。损失函数如下:
[0051]
其中l
fm
为判别器所有层损失值的平均值,计算判别器第t层损失值的公式为:其中n是判别器第t层的特征数,为第t层判别器提取图像x的第i个特征;
[0052]
总的损失函数为:
[0053]
l=l
encoding
+l
fm
[0054]
2.2文本编码器和草图编码器
[0055]
文本和服装草图共同组成了条件信息。对于文本的编码,本发明直接使用word2vec,该方法利用轻量级的神经网络在语料库上训练出一个词相关模型,可以将语料库中的每个词语映射到一个指定维度的向量空间中,并通过向量之间的相关性来表示不同词语之间的关系。
[0056]
对于服装草图,由于它们只包含一些简单的黑线条,携带的有效信息较少,不太需要关注其细节信息,因此很容易获取它们的图像表征,在本发明中,使用vq-vae模型将它们直接编码为一系列离散的序列。
[0057]
三、多模态信息关联学习模型
[0058]
多模态信息关联学习模型利用各个编码器提取到的特征,学习不同模态信息之间的关联,从而根据给定的草图和文本生成相对应的服装图像。
[0059]
本发明使用自回归预测的方法生成服装序列。在自回归模型中,给定一系列向量x=(x1,

,xn),模型将每个特征作为条件来计算联合分布,即
[0060][0061]
然后,通过最大化似然估计到具有最大概率的特征,并将其作为预测值。在本发明的任务中,需要添加额外的条件信息来控制生成的过程,将条件信息定义为c,该模型需要学习条件概率分布p(x,c):
[0062][0063]
在此基础上,本发明提出一个自回归duplicate-transformer,它由一对结构完全相同的单向自回归transformer组成,其中,transformer-l用于生成服装细节信息编码,transformer-g用于生成服装全局信息编码。如图3所示,在训练阶段,将草图及其相应的服装图片和文字描述信息分别送入相应的编码器。对于transformer-g,将草图编码、文本编码和服装全局信息编码融合作为输入,其中草图和文本共同构成条件信息,通过transformer中的掩码注意机制自动生成服装全局信息序列。对于transformer-l,将服装图像的全局信息编码作为条件信息,并与局部信息编码连接作为输入,自动生成服装的局部信息序列。最后,将生成的全局信息序列与局部信息序列分别在基向量空间中到对应的向量并转换为二维特征图,送至解码器d生成图像。
[0064]
四、实验部分
[0065]
4.1数据准备
[0066]
实验使用两个数据集来验证本发明的模型,第一个是viton数据集,用于评估服装单模态生成任务,该数据集的服装图像只包含一些简单的彩和纹理;另一个是feidegger数据集,用于评估服装多模态生成任务,该数据集的服装图像主要为女性的衣裙,包含复杂的花纹和多样的彩,每张图像都有对应的文本描述。实验中使用photo-sketching将服装图像转换为相对应的草图。
[0067]
4.2实验设置
[0068]
在第一阶段,将服装的全局和局部基向量空间的大小设置为512维,输入图像大小为256
×
256像素。对于服装图像,设置局部特征图z
local
=32
×
32,全局特征图z
global
=16
×
16;对于草图,直接将其压缩到z=16
×
16的离散空间中。实验选择在4个v-100gpu(32gb)上训练模型,批次量的大小为128,迭代次数为500次,参数由adam优化器更新,学习率设置为0.0003。在第二阶段,将transformer的层数设置为24层,每层包含16个头,设置批次量大小为32,迭代次数为500次。
[0069]
4.3评估指标
[0070]
本发明的实验主要使用如下三个评估指标:
[0071]
·
is(inception score):is主要使用inceptionnet-v3网络来评估生成图像的清晰度和多样性,较高的is值表示较高的保真度和多样性。
[0072]
·
fid(fr
é
chet inception distance):fid用于衡量真实图像和生成图像的inception特征向量在同一领域的距离,较低的fid意味着生成的图像与真实图像的分布更接近。
[0073]
·
lpips(learned perceptual image patch similarity):lpips也被称为“感知损失”,用于衡量两幅图像之间的差异,lpips值越低,表明两幅图像越相似,多样性越低,反之亦然。
[0074]
4.4服装草图到图像的生成
[0075]
4.4.1与传统单模态方法的比较
[0076]
实验选择了四个经典的单模态条件图像生成方法,包括原始条件生成网络pix2pix、不需要配对数据的无监督生成模型cyclegan、生成图像多样性相对最优的生成模型munit以及基于注意力机制的无监督生成模型u-gat-it。对于这些单模态方法,不考虑文本描述信息,只是评估每个模型在两个图像域之间的映射能力,这些方法的结果报告在表1中:
[0077]
表1不同方法的基准
[0078][0079][0080]
本发明的方法生成的服装图像的is和lpips的得分分别为3.30和0.374,相较于munit分别提升了10.73%和10.8%;fid得分为26.08,相比于最先进的u-gat-it提升了24.19。生成的结果显示在图4中,与其他几种方法相比,本发明的方法生成的图像更多样化,包含更多种颜;此外,本发明的结果具有非常高的保真度,可以生成真实服装的折皱。
[0081]
4.4.2基于多模态信息生成的实验结果
[0082]
实验使用feidegger数据集训练模型,并在测试集上进行测试,结果如图5所示,第一列为输入的服装草图,第二列为文本描述信息,第三,四,五列为生成的服装图像。结果显示,本发明所提出的方法充分结合草图信息和文本描述信息,能够生成具有指定属性的服装图像。特别的,模型可以根据相同的草图和文字生成多种款式的服装图像,这显著提高了其多样性。然而,由于数据集规模的限制,部分语义属性信息没有得到充分的学习,如服装上的图案种类,服装的材质种类。
[0083]
4.4.3与单层编码方法的比较
[0084]
为了充分证明本发明服装编码方法的优越性,选取了三种目前效果非常优异的单
层编码模型,主要包括vq-vae、peco和vq-gan。实验使用相同的配置在viton数据集和feidegger数据集上训练三种编码模型。在测试阶段,选择了具有多个褶皱或复杂纹理的服装图像,并使用训练好的各个模型对其进行重建。重建结果如图6所示,可以发现,在viton数据集上,vq-vae在服装褶皱处的重建能力比较差,peco重建的花纹图案丢失了部分颜信息,vq-gan与本发明方法相对来说区别不大;在feidegger数据集上,vq-vae的重建图像的纹理混乱,服装图像边缘处有许多模糊的斑块,peco重建的图像则包含非常多的杂,这表明二者没有充分学习到服装的纹理和彩;尽管vq-gan在viton数据集上显示出很强的重建能力,但面对具有复杂纹理和混的服装,它仍然不能忠实地再现。相比之下,本发明的方法尽可能地保留了图像的颜和纹理信息,即使面对错综复杂的线条和斑点,也能够有比较好的还原效果。此外,实验在两个数据集上评估了重建fid,并在表2中报告了结果,在viton数据集上,本发明方法相对于vq-gan有略微的提升;而在feidegger上,本发明的方法在训练集上提升了1.65,在测试集上提升了4.43。
[0085]
表2不同编码方法的重建fid
[0086][0087]
4.5消融实验
[0088]
在这一节中,重点讨论了模型中所提出的特征匹配损失和分层编码方法的消融研究。
[0089]
4.5.1特征匹配损失
[0090]
为了探究特征匹配损失的有效性,实验使用相同的配置,在feidegger数据集上训练两个模型,其中一个包含特征匹配损失,另一个则是原始损失。图7显示了训练期间的均方误差(mse)。最初的mse很低,约为0.4,这是因为服装图像包含许多空白区域,mse仅仅关注了像素级别之间的差异。可以发现,包含特征匹配损失的模型比其他模型收敛得更快,几乎是原始模型的两倍,整体mse也更小,这表明特征匹配损失一开始就能关注到服装的低层次特征。在390个epoch时,本发明模型重建的图像已经能够忠实地再现服装的纹理颜信息。表3显示了该模型在feidegger上重建的fid,特征匹配损失对重建的fid有比较明显的改善。图8是关于不同损失类型的图像重建结果的例子(第一列是输入图像,第二列为原始损失重建图像。第三列为仅加入特征损失重建图像)。
[0091]
4.5.2分层编码
[0092]
为了验证分层编码的优势,实验中将本发明的模型去掉特征匹配损失,并将服装局部信息编码移除,改为单层编码。图8显示了一个重建结果的例子(第四列为仅加入分层编码机制的重建图像,第五列为本发明方法重建图像)。本发明的编码方法能更清晰地重建图像纹理,特别是在服装的边缘,单层编码会产生重影与杂,而本发明的方法显示出更好
的重建效果。实验在feidegger上评估了重建fid,并在表3中报告了结果,实验证明,分层编码与特征匹配损失对于提升模型的编码能力都有比较大的作用,将两者结合能够使模型充分关注到服装图像中最细微的纹理。
[0093]
表3 feidegger上的重建fid
[0094][0095]
5结束语
[0096]
本发明利用多模态信息的协同特征表示,提出了一个用于服装草图到图像的多模态生成模型。该模型将cnn多尺度特征提取的优势与transformer强大的掩码注意力机制相结合。对于服装图像,提出一个分层编码模型,并引入特征匹配损失,使得生成的服装图像纹理更加清晰。同时,提出一个duplicate-transformer学习不同模态信息之间的关联,协同指导生成具有指定属性的服装图像。在实验中,本发明的方法可以生成高度真实的服装图像,并且在属性控制方面具有更大的灵活性。经过比较,本发明方法生成图像的fid相较于最先进的基于注意力引导的单模态生成方法u-gat-it降低了24.19,is值相较于最先进的munit提升了10.73%,lpips值提升了10.8%,多样性和保真度都得到了较为明显的提升。
[0097]
以上所述为本发明最佳实施方式的举例,其中未详细述及的部分均为本领域普通技术人员的公知常识。本发明的保护范围以权利要求的内容为准,任何基于本发明的技术启示而进行的等效变换,也在本发明的保护范围之内。


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-9-865-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-11-27 21:14:01

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论