cider

更新时间:2022-12-29 02:32:55 阅读: 评论:0


2022年12月29日发(作者:出国留学咨询处)

⽂本⽣成评价指标BLEUROUGECIDErSPICEPerplexityMETEOR

⽂本⽣成⾃动评价⽅法

BLEUROUGECIDErSPICEPerplexityMETEOR

BilingualEvaluationUnderstudy,双语评估辅助⼯具

核⼼思想

⽐较候选译⽂和参考译⽂⾥的n-gram的重合程度,重合程度越⾼就认为译⽂质量越⾼。unigram⽤于衡量单词翻译的准确性,⾼阶n-

gram⽤于衡量句⼦翻译的流畅性。实践中,通常是取N=1~4,然后对进⾏加权平均。

计算公式

其中表⽰n-gram,表⽰n-gram的权重;

表⽰短句⼦惩罚因⼦(brevitypenaty),⽤表⽰最短的参考翻译的长度,表⽰候选翻译的长度,则具体计算⽅法为:

表⽰n-gram的覆盖率,具体计算⽅式为:

关于上述的计算,说明⼀下:

是截断计数,其计数⽅式为:将⼀个n-gram在候选翻译中出现的次数,与在各个参考翻译中出现次数的最⼤值进⾏⽐较,取较

⼩的那⼀个。

举个例⼦:

Candidate:thethethethethethethe.

Reference1:Thecatisonthemat.

Reference2:Thereisacatonthemat.

其中,我们取,则⼀元组"the"在Candidate中出现的次数为7,在Reference1中出现的次数为2,在Reference2中出现的次数为

1,则

主要特点

n-gram共现统计

基于精确率

应⽤场景

MachineTranslation

缺点

只看重精确率,不看重召回率。(详细得说:待补充~)*存在常⽤词⼲扰(可以⽤截断的⽅法解决)

短句得分较⾼。即使引⼊了brevitypenalty,也还是不够。

改进

截断:改进常⽤词⼲扰

brevitypenalty:改进短句得分较⾼的问题

MetricforEvaluationofTranslationwithExplicitORdering,显式排序的翻译评估指标

核⼼思想

METEOR是基于BLEU进⾏了⼀些改进,其⽬的是解决⼀些BLEU标准中固有的缺陷。使⽤WordNet计算特定的序列匹配,同义词,词

根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟⼈⼯判别共更强的相关性。并且,是基于F值的。

计算公式

其中,

为可调控的参数,为候选翻译中能够被匹配的⼀元组的数量,为候选翻译的长度,为参考摘要的长度。

为惩罚因⼦,惩罚的是候选翻译中的词序与参考翻译中的词序不同,具体计算⽅法为:

说明⼀下:m依旧是候选翻译中能够被匹配的⼀元组的数量,指的是chunk的数量,chunk就是既在候选翻译中相邻⼜在参考翻

译中相邻的被匹配的⼀元组聚集⽽成的单位,举个例⼦:

Candidate:thepresidentspoketotheaudience.

Reference:thepresidentthenspoketotheaudience.

在上述例⼦中,reference中的6个unigram都可以被匹配,但是其在reference中匹配的对象,却只有"thepresident"和"spoketothe

audience"这两个字符串是相邻的,⽽这两个字符串就是两个chunk。

主要特点

unigram共现统计

基于F值

考虑同义词、词⼲

应⽤场景

MachineTranslation、ImageCaption

缺点

只有Java实现。

参数较多,有四个需要⾃⼰设置的参数。

需要外部知识源,⽐如:WordNet,如果是WordNet中没有的语⾔,则⽆法⽤METEOR评测。

Recall-OrientedUnderstudyforGistingEvaluation,⾯向召回率的摘要评估辅助⼯具

核⼼思想

⼤致分为四种:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常⽤的是前两种(-N与-L)*ROUGE-N中的“N”指的是N-gram,

其计算⽅式与BLEU类似,只是BLEU基于精确率,⽽ROUGE基于召回率。

ROUGE-L中的“L”指的是LongestCommonSubquence,计算的是候选摘要与参考摘要的最长公共⼦序列长度,长度越长,得

分越⾼,基于F值。

计算公式

主要介绍ROUGE-N和ROUGE-L

ROUGE-N:

其中,表⽰n-gram,表⽰⼀个n-gram的出现次数,表⽰⼀个n-gram的共现次数。

ROUGE-L:

其中,表⽰候选摘要,表⽰参考摘要,表⽰候选摘要与参考摘要的最长公共⼦序列的长度,表⽰参考摘要的长度,

表⽰候选摘要的长度。

主要特点

n-gram共现统计、最长公共⼦序列

基于召回率(ROUGE-N)和F值(ROUGE-L)

应⽤场景

TextSummarization

缺点

ROUGE是基于字的对应⽽⾮基于语义的对应,不过可以通过增加参考摘要的数量来缓解这⼀问题。

改进

ROUGE-S:统计skipn-gram⽽⾮n-gram

ROUGE-W:考虑加权的最长公共⼦序列

xity

困惑度

核⼼思想

(1)根据参考句⼦,学习⼀个语⾔模型P;(2)根据语⾔模型P,计算候选句⼦的得分;(3)根据句⼦长度对上述得分进⾏Normalize

计算公式

其中是候选翻译,N是候选翻译的长度,是根据参考翻译得到的语⾔模型,⽽则是语⾔模型对候选翻译计算出

的得分。

主要特点

基于语⾔模型(我感觉其实也是n-gram)

困惑度越低,翻译质量越好

应⽤场景

MachineTranslation、LanguageModel

缺点

数据集越⼤,困惑度下降得越快

数据中的标点会对模型的PPL产⽣很⼤影响

常⽤词⼲扰

Connsus-badImageDescriptionEvaluation,基于共识的图像描述评估

核⼼思想

把每个句⼦看成⽂档,然后计算其TF-IDF向量(注意向量的每个维度表⽰的是n-gram⽽不⼀定是单词)的余弦夹⾓,据此得到候选句⼦

和参考句⼦的相似度。

计算公式

其中,表⽰候选标题,表⽰参考标题集合集合,表⽰评估的是n-gram,表⽰参考字幕的数量,表⽰基于n-gram的TF-IDF向

量。

主要特点

TF-IDF

余弦相似度

应⽤场景

ImageCaption

缺点

与ROUGE⼀样,也只是基于字词的对应⽽⾮语义的对应

SemanticPropositionalImageCaptionEvaluation,语义命题图像标题评估

核⼼思想

SPICE使⽤基于图的语义表⽰来编码caption中的objects,attributes和relationships。它先将待评价caption和参考captions⽤

ProbabilisticContext-FreeGrammar(PCFG)dependencyparrpar成syntacticdependenciestrees,然后⽤基于规则的⽅

法把dependencytree映射成scenegraphs。最后计算待评价的caption中objects,attributes和relationships的F-score值。

计算公式

其中,表⽰候选标题,表⽰参考标题集合,表⽰利⽤某种⽅法将⼀段⽂本转换成⼀个场景图(SceneGraph),表⽰将⼀

个场景图转换成⼀系列元组(tuple)的集合,运算类似于交集,与交集不同的地⽅在于它不是严格匹配,⽽是类似于METEOR中的匹

配。

下⾯是⼀个的例⼦:

sourcetext:"Ayounggirlstandingontopofatenniscourt."

:{(girl),(court),(girl,young),(girl,standing)(court,tennis),(girl,on-top-of,court)}

主要特点

使⽤基于图的语义表⽰

应⽤场景

ImageCaption

缺点

由于在评估的时候主要考察名词的相似度,因此不适合⽤于机器翻译等任务。

本文发布于:2022-12-29 02:32:55,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/50562.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:emery
下一篇:edinburgh
标签:cider
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图