ImageCaption图像描述总结
⽅法分类
现有的解决图像描述任务的算法⼤致可以分为三类 :基于模板式的 、基于相似空间检索式的 、基于多模翻译式的 。
现有的⽣成图像描述的形式⼤致也可分为三类 :单句⼦式描述 ,密集型描述,多语⾔描述。
模板式:模板式基于句法树创建的数据驱动模型,基于视觉依存表⽰来提取对象之间的关系,利⽤名词,动词 ,场景和介词组成的四元组描述图像 ,基于语⾔解析的表达模型也有⼴泛应⽤ 。 基 于模板的⽅法的优点是得到的语⾔描述更有可能在语法上正确,缺点是它们仍然⾼度依赖于模板 ,不适⽤于所有图像,且限制了输出的多样性
相似性检索的⽅式:对于图像查询⽅式,是指检索向量空间中最接近的图像描述 ,以⽣成⾃⼰的图像描述 。 通常这个⽅法确实可以实现⼈类的描述 , 因为所有的句⼦来⾃现有的⼈⼯⽣成的句⼦。 但该⽅法需要收集⼤量⼈⼯⽣成的句⼦,训练集也需要多样化, 并且这个⽅法⼀定程度上不能产⽣⼀个很新颖的描述。
在此之后的研究则⼤多是不断在⽂献 NIC 的基础上,从不同的卷积神经⽹络编码模型、不同的循环神经
⽹络语⾔模型、不同的编码输⼊⽅式和不同的词嵌⼊(Word Embedding)等⽅⾯考虑,对其进⾏改进
CNN:卷积层为特征提取层,⽽激活层是特征映射层
LSTM:输⼊门和遗忘门⽤于控制输⼊记忆神经元的数据,⽽输出门控制输⼊隐含层的数据对其输出的影响
评价策略
原理是⽐较机器翻译结果 ( candidate) 和⼈⼯翻译结果 ( reference) 的相似度。
哀莫大于心死英文
BLEU⽅法是⼀种基于精度的度量⽅法, 主要思想是衡量⽣成的句⼦与参考句⼦之间的 n-Gram 精度, ⽤"B-n" 表⽰所有精度的平均值,取值在 (0; 1] 之间,其值越⼤, 表明模型在该 “B-n” 上的效果越好; 在不同的 “B-n” 之间, n 越⼤, 表⽰⽣成的句⼦连贯性越好.。
METEOR ⾃动评测⽅法既考虑了准确率, 也考虑了召回率。 ⾸先使⽤任意匹配的⽅式将参考句⼦与⽣成句⼦中的单词按照精准匹配、同义匹配和前缀匹配的⽅式依次寻找匹配的最⼤值, 当三种匹配的最⼤值存在相同时, 选择按顺序两两匹配中交叉数最少的匹配作为“对齐(alignment)”; 通过不断代, ⽣成对齐集合, 然后将该集合中元素的个数与参考句⼦中单词总数的⽐值作为召回率, 与⽣成句⼦中单词总数的⽐值作为准确率, 然后使⽤调和平均值的⽅式计算最终值, 取值在 (0; 1] 之间, 其值越⼤, 说明⽣成的句⼦质量越⾼。
the power of the dream
ROUGE 准则定义最长公共⼦序列来计算相似度,序列要求有顺序不⼀定连续。
CIDEr 评价⽅法 引⼊了 “共识” 的概念, 通过计算⽣成句⼦和⼈⼯标注的参考句⼦之间的余弦距离对⽣成句⼦进⾏评价, 其值越⼤, 表明⽣成句⼦与图像中所有参考句⼦之间的语义相似度越⼤。
BLEU指数同时采⽤了长度惩罚和⾮长度惩罚的计算结果,它反映了⽣成结果与参考答案之间的N元⽂法准确率。
emperor是什么意思METEOR测度基于单精度加权调和平均数和单字召回率。
Rouge与BLEU 类似,它是基于召回率的相似度衡量⽅法。
CIDEr是基于共识的评价⽅法,优于上述其他指标。
平⾏语料库:
源语⾔和⽬标语⾔中的句⼦对通常具有相似的句⼦结构(通常包括规则短语和相同的单词顺序)
保罗班扬
多标签分类中常⽤的三项指标:
Precision@k表⽰前k个预测 标签的准确率,即在前k个预测标签中正确的标签个数除以k;
瘾君子英文Recall@k表⽰前k个预测标签的召回率,即在前k个预测标签中正确的标签个数除以答案中的总标签个数;
extant其中,y为真实标签,yˆ 是预测标签
F1@k表⽰对前k个预测标签的准确率和召回率计算加权调和平均
CNN-RNN:CNN的图像嵌⼊与LSTM不同连接⽅式:
(图来⾃:2017–S-CNN-RNN–《Semantic Regularisation for Recurrent Image Annotation》)
利⽤外部知识图
《Improving Image Captioning by Leveraging Knowledge Graphs》
2019–CNet-NIC:⾸先YOLO9000检测图像中的对象,然后利⽤ConceptNet提供直接相关的术语和间接相关的术语,将D,I和X的合并作为LSTM 的初始化输⼊
YOLO9000:被检测到的物体和直接相关的术语提供了关于图像中单个物体的更多信息,⽽间接相关的术语提供了关于整个场景的信息
ConceptNet:⼀个有标签的图,它将⾃然语⾔的单词和短语连接起来,这些单词和短语的边缘表⽰它们之间的常识关系,从⽽推断出⼀组直接或间接与描述对象识别模块在场景中找到的对象的单词相关的术语
利⽤图像标签信息:
《Image Captioning with Semantic Attention》
2016–GoogleNet+RNN —⾃顶向下+⾃底向上 结合
图像描述有两种基本模式:top-down和bottom-up。
top-down模式就是从图像的⼀个要素出发,转化它为单词,这类⽅法很难注意细节。
bottom-up模式⾸先提出描述图像各个⽅⾯的单词,然后组合这些单词,这类⽅法从独⽴的⽅⾯形成句⼦,缺少端到端形式的训练。
在《show,attend and tell》中,注意⼒是以固定的分辨率在空间上建模的。在每次重复迭代时,该算法计算⼀组与预定义的空间位置相对应的注意权值。相反,本⽂可以在图像中任何分辨率的任何地⽅使⽤概念。事实上,本⽂甚⾄可以使⽤在图像中没有直接视觉存在的概念。
翻译工具下载
congress对于这个attributes, ⽂章提出了三种⽅法来提取,分别是:
1. ⽤图像的caption在数据库以KNN最近邻⽅法查找相近的图⽚,并选择其标签
2. 使⽤多标签排序的分类器(Multi-label Ranking)
3. 使⽤全卷积⽹络(FCN)
利⽤基于区域的多标签分类框架
《Image Captioning and Visual Question Answering Bad on Attributesand External Knowledge》
2016-- 只使⽤ 多标签分类 得到的属性向量得分,没有使⽤ 整个图像的特征CNN(I)作为输⼊
由于每个单词出现在标题中的次数相对较少,将 多⽰例学习问题 转化为 多标签分类问题。
基于区域的多标签分类框架:
(1)由于有些属性可能只适⽤于图像的⼦区域,跟随论⽂[61]提出多标签分类框架。
help的用法
(2)需要任意数量的⼦区域提案作为输⼊,然后共享CNN与每⼀个提案,从不同的提案和CNN的输出结果与最⼤平均池化 聚合⽣成最终的预测将CNN特性和属性向量结合起来作为LSTM的输⼊,但是我们发现这种⽅法不如只在相同的设置中使⽤属性向量
另外,本⽂的 对⽐试验较多,利⽤了 PCA 降维,SVM的属性分类, 与论⽂[61]相⽐ 使⽤ logistic 损失函数
RNN结构及展开形式
多⽰例学习(MIL)
important的用法多⽰例学习(MIL)的训练数据集是有标记的,但是标记的标签仅仅包含正和负两个类别,且标记对象的
单位不是样本,⽽是由若⼲样本组成的袋(bag)。当⼀个袋被标为负时,这个袋中所有的样本均为负。⽽当⼀个袋被标为正时,袋中⾄少有⼀个样本为正。模型训练的⽬标是学习⼀个分类器,对新的样本输⼊,能够进⾏正负标记。
注意⼒机制(attention)
将注意机制运⽤在图像描述任务的 NIC 模型中,使⽤的⽅式⼤多是先将图像分割成 n个区域,然后直接将图像不同区域的 CNN 特征作为学习注意权重的对象输⼊语⾔模型,使得语⾔模型⽣成新词时,图像相关部分特征的权重较⾼,从⽽让解码器 RNN 要⽤图⽚的相关部分来⽣成描述词语。
Stanford Parr和NTLK对⽐
由于斯坦福解析器[31]⽣成的解析树中存在不相关的单词和噪声配置,我们使⽤ntlk[41]中的pos标记⼯具和lemmatizer⼯具同时对源语句进⾏⽩化
[31] Parsing natural scenes and natural language with recursive neural networks.
[41] Nltk: the natural language toolkit
图⽚-语句匹配
《基于语义蕴含关系的图⽚语句匹配模型》
⽬前已有的图⽚-语句匹配⽅法主要有两⼤类:
1:将图⽚和语句映射到⼀个公共的语义空间, 然后进⾏两者之间的匹配;
2:采⽤诸如典型相关分析 (Canonical correlation analysis, CCA)、深度学习等⽅式来建⽴图⽚和语句之间的关联
图像多分类问题
有相同的CNN之后使⽤SVM的⼀些GitHub的开源代码: