pair是什么意思

更新时间:2022-11-26 10:44:37 阅读: 评论:0


2022年11月26日发(作者:西安交通大学三本)

BERT中的tokenizer和wordpiece和bpe(bytepairencodin。。。

⽂章⽬录

⼀、BERT中的tokenizer和wordpiece和bpe(bytepairencoding)分词算法

1.1tokenizer分词器

wordpiece(暂且称为词块)

对于英⽂词语

bert的tokenizer使⽤wordpiece将词语分成⼀块⼀块的subword

例如:⽐如"loved",“loving”,"loves"这三个单词。其实本⾝的语义都是“爱”的意思,但是如果我们以单词为单位,那它们就算不

⼀样的词,在英语中不同后缀的词⾮常的多,就会使得词表变的很⼤,训练速度变慢,训练的效果也不是太好。

BPE算法通过训练,能够把上⾯的3个单词拆分成"lov",“ed”,“ing”,"es"⼏部分,这样可以把词的本⾝的意思和时态分开,有效的

减少了词表的数量

对于中⽂

⼀个字就是⼀个最⼩单元,⽆法再进⾏拆分

中⽂的处理⽅法⼀般分为分词和分字,理论上分词效果更换,语义划分的细致;分字简单、效率⾼,词表⼩,常⽤词仅有3000左右

1.2⾕歌中⽂预训练语⾔模型,词包(词典)

"##"表⽰连接符

例1:⽐如pupperteer词典中没有,分词后是puppet、##eer

例2:epc词典中没有,分词后是ep##c

##后的词,表⽰是通过分词产⽣的。

中⽂⽆需分词,故##后接汉字的在词包中不⽣效

1.3bpe(bytepairencoding,字节对编码)分词算法

原⽂作者讲的很详细!

资料

理解bpe

bpe分词算法的原理以及在机器翻译中的应⽤

机器翻译bpe——bytes-pair-encoding以及开源项⽬subword-nmt快速⼊门

理解tokenize

深度学习实战(4)如何向BERT词汇表中添加token,新增特殊占位符

本文发布于:2022-11-26 10:44:37,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/24590.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:hypothesis
下一篇:湖北学位英语
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图