⽂本⽣成评价指标BLEUROUGECIDErSPICEPerplexityMETEOR
⽂本⽣成⾃动评价⽅法
BLEUROUGECIDErSPICEPerplexityMETEOR
BilingualEvaluationUnderstudy,双语评估辅助⼯具
核⼼思想
⽐较候选译⽂和参考译⽂⾥的n-gram的重合程度,重合程度越⾼就认为译⽂质量越⾼。unigram⽤于衡量单词翻译的准确性,⾼阶n-
gram⽤于衡量句⼦翻译的流畅性。实践中,通常是取N=1~4,然后对进⾏加权平均。
计算公式
其中表⽰n-gram,表⽰n-gram的权重;
表⽰短句⼦惩罚因⼦(brevitypenaty),⽤表⽰最短的参考翻译的长度,表⽰候选翻译的长度,则具体计算⽅法为:
表⽰n-gram的覆盖率,具体计算⽅式为:
关于上述的计算,说明⼀下:
是截断计数,其计数⽅式为:将⼀个n-gram在候选翻译中出现的次数,与在各个参考翻译中出现次数的最⼤值进⾏⽐较,取较
⼩的那⼀个。
举个例⼦:
Candidate:thethethethethethethe.
Reference1:Thecatisonthemat.
Reference2:Thereisacatonthemat.
其中,我们取,则⼀元组"the"在Candidate中出现的次数为7,在Reference1中出现的次数为2,在Reference2中出现的次数为
1,则
主要特点
n-gram共现统计
基于精确率
应⽤场景
MachineTranslation
缺点
只看重精确率,不看重召回率。(详细得说:待补充~)*存在常⽤词⼲扰(可以⽤截断的⽅法解决)
短句得分较⾼。即使引⼊了brevitypenalty,也还是不够。
改进
截断:改进常⽤词⼲扰
brevitypenalty:改进短句得分较⾼的问题
MetricforEvaluationofTranslationwithExplicitORdering,显式排序的翻译评估指标
核⼼思想
METEOR是基于BLEU进⾏了⼀些改进,其⽬的是解决⼀些BLEU标准中固有的缺陷。使⽤WordNet计算特定的序列匹配,同义词,词
根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟⼈⼯判别共更强的相关性。并且,是基于F值的。
计算公式
其中,
为可调控的参数,为候选翻译中能够被匹配的⼀元组的数量,为候选翻译的长度,为参考摘要的长度。
为惩罚因⼦,惩罚的是候选翻译中的词序与参考翻译中的词序不同,具体计算⽅法为:
说明⼀下:m依旧是候选翻译中能够被匹配的⼀元组的数量,指的是chunk的数量,chunk就是既在候选翻译中相邻⼜在参考翻
译中相邻的被匹配的⼀元组聚集⽽成的单位,举个例⼦:
Candidate:thepresidentspoketotheaudience.
Reference:thepresidentthenspoketotheaudience.
在上述例⼦中,reference中的6个unigram都可以被匹配,但是其在reference中匹配的对象,却只有"thepresident"和"spoketothe
audience"这两个字符串是相邻的,⽽这两个字符串就是两个chunk。
主要特点
unigram共现统计
基于F值
考虑同义词、词⼲
应⽤场景
MachineTranslation、ImageCaption
缺点
只有Java实现。
参数较多,有四个需要⾃⼰设置的参数。
需要外部知识源,⽐如:WordNet,如果是WordNet中没有的语⾔,则⽆法⽤METEOR评测。
Recall-OrientedUnderstudyforGistingEvaluation,⾯向召回率的摘要评估辅助⼯具
核⼼思想
⼤致分为四种:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常⽤的是前两种(-N与-L)*ROUGE-N中的“N”指的是N-gram,
其计算⽅式与BLEU类似,只是BLEU基于精确率,⽽ROUGE基于召回率。
ROUGE-L中的“L”指的是LongestCommonSubquence,计算的是候选摘要与参考摘要的最长公共⼦序列长度,长度越长,得
分越⾼,基于F值。
计算公式
主要介绍ROUGE-N和ROUGE-L
ROUGE-N:
其中,表⽰n-gram,表⽰⼀个n-gram的出现次数,表⽰⼀个n-gram的共现次数。
ROUGE-L:
其中,表⽰候选摘要,表⽰参考摘要,表⽰候选摘要与参考摘要的最长公共⼦序列的长度,表⽰参考摘要的长度,
表⽰候选摘要的长度。
主要特点
n-gram共现统计、最长公共⼦序列
基于召回率(ROUGE-N)和F值(ROUGE-L)
应⽤场景
TextSummarization
缺点
ROUGE是基于字的对应⽽⾮基于语义的对应,不过可以通过增加参考摘要的数量来缓解这⼀问题。
改进
ROUGE-S:统计skipn-gram⽽⾮n-gram
ROUGE-W:考虑加权的最长公共⼦序列
xity
困惑度
核⼼思想
(1)根据参考句⼦,学习⼀个语⾔模型P;(2)根据语⾔模型P,计算候选句⼦的得分;(3)根据句⼦长度对上述得分进⾏Normalize
计算公式
其中是候选翻译,N是候选翻译的长度,是根据参考翻译得到的语⾔模型,⽽则是语⾔模型对候选翻译计算出
的得分。
主要特点
基于语⾔模型(我感觉其实也是n-gram)
困惑度越低,翻译质量越好
应⽤场景
MachineTranslation、LanguageModel
缺点
数据集越⼤,困惑度下降得越快
数据中的标点会对模型的PPL产⽣很⼤影响
常⽤词⼲扰
Connsus-badImageDescriptionEvaluation,基于共识的图像描述评估
核⼼思想
把每个句⼦看成⽂档,然后计算其TF-IDF向量(注意向量的每个维度表⽰的是n-gram⽽不⼀定是单词)的余弦夹⾓,据此得到候选句⼦
和参考句⼦的相似度。
计算公式
其中,表⽰候选标题,表⽰参考标题集合集合,表⽰评估的是n-gram,表⽰参考字幕的数量,表⽰基于n-gram的TF-IDF向
量。
主要特点
TF-IDF
余弦相似度
应⽤场景
ImageCaption
缺点
与ROUGE⼀样,也只是基于字词的对应⽽⾮语义的对应
SemanticPropositionalImageCaptionEvaluation,语义命题图像标题评估
核⼼思想
SPICE使⽤基于图的语义表⽰来编码caption中的objects,attributes和relationships。它先将待评价caption和参考captions⽤
ProbabilisticContext-FreeGrammar(PCFG)dependencyparrpar成syntacticdependenciestrees,然后⽤基于规则的⽅
法把dependencytree映射成scenegraphs。最后计算待评价的caption中objects,attributes和relationships的F-score值。
计算公式
其中,表⽰候选标题,表⽰参考标题集合,表⽰利⽤某种⽅法将⼀段⽂本转换成⼀个场景图(SceneGraph),表⽰将⼀
个场景图转换成⼀系列元组(tuple)的集合,运算类似于交集,与交集不同的地⽅在于它不是严格匹配,⽽是类似于METEOR中的匹
配。
下⾯是⼀个的例⼦:
sourcetext:"Ayounggirlstandingontopofatenniscourt."
:{(girl),(court),(girl,young),(girl,standing)(court,tennis),(girl,on-top-of,court)}
主要特点
使⽤基于图的语义表⽰
应⽤场景
ImageCaption
缺点
由于在评估的时候主要考察名词的相似度,因此不适合⽤于机器翻译等任务。
本文发布于:2022-12-29 02:32:55,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/50562.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |