BERT中的tokenizer和wordpiece和bpe(bytepairencodin。。。
⽂章⽬录
⼀、BERT中的tokenizer和wordpiece和bpe(bytepairencoding)分词算法
1.1tokenizer分词器
wordpiece(暂且称为词块)
对于英⽂词语
bert的tokenizer使⽤wordpiece将词语分成⼀块⼀块的subword
例如:⽐如"loved",“loving”,"loves"这三个单词。其实本⾝的语义都是“爱”的意思,但是如果我们以单词为单位,那它们就算不
⼀样的词,在英语中不同后缀的词⾮常的多,就会使得词表变的很⼤,训练速度变慢,训练的效果也不是太好。
BPE算法通过训练,能够把上⾯的3个单词拆分成"lov",“ed”,“ing”,"es"⼏部分,这样可以把词的本⾝的意思和时态分开,有效的
减少了词表的数量
对于中⽂
⼀个字就是⼀个最⼩单元,⽆法再进⾏拆分
中⽂的处理⽅法⼀般分为分词和分字,理论上分词效果更换,语义划分的细致;分字简单、效率⾼,词表⼩,常⽤词仅有3000左右
1.2⾕歌中⽂预训练语⾔模型,词包(词典)
"##"表⽰连接符
例1:⽐如pupperteer词典中没有,分词后是puppet、##eer
例2:epc词典中没有,分词后是ep##c
##后的词,表⽰是通过分词产⽣的。
中⽂⽆需分词,故##后接汉字的在词包中不⽣效
1.3bpe(bytepairencoding,字节对编码)分词算法
原⽂作者讲的很详细!
资料
理解bpe
bpe分词算法的原理以及在机器翻译中的应⽤
机器翻译bpe——bytes-pair-encoding以及开源项⽬subword-nmt快速⼊门
理解tokenize
深度学习实战(4)如何向BERT词汇表中添加token,新增特殊占位符
本文发布于:2022-11-26 10:44:37,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/24590.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |