pair是什么意思

更新时间:2022-11-26 10:44:37 阅读：评论：0

2022年11月26日发(作者：西安交通大学三本)

BERT中的tokenizer和wordpiece和bpe（bytepairencodin。。。

⽂章⽬录

⼀、BERT中的tokenizer和wordpiece和bpe（bytepairencoding）分词算法

1.1tokenizer分词器

wordpiece（暂且称为词块）

对于英⽂词语

bert的tokenizer使⽤wordpiece将词语分成⼀块⼀块的subword

例如：⽐如"loved",“loving”,"loves"这三个单词。其实本⾝的语义都是“爱”的意思，但是如果我们以单词为单位，那它们就算不

⼀样的词，在英语中不同后缀的词⾮常的多，就会使得词表变的很⼤，训练速度变慢，训练的效果也不是太好。

BPE算法通过训练，能够把上⾯的3个单词拆分成"lov",“ed”,“ing”,"es"⼏部分，这样可以把词的本⾝的意思和时态分开，有效的

减少了词表的数量

对于中⽂

⼀个字就是⼀个最⼩单元，⽆法再进⾏拆分

中⽂的处理⽅法⼀般分为分词和分字，理论上分词效果更换，语义划分的细致；分字简单、效率⾼，词表⼩，常⽤词仅有3000左右

1.2⾕歌中⽂预训练语⾔模型，词包（词典）

"##"表⽰连接符

例1：⽐如pupperteer词典中没有，分词后是puppet、##eer

例2：epc词典中没有，分词后是ep##c

##后的词，表⽰是通过分词产⽣的。

中⽂⽆需分词，故##后接汉字的在词包中不⽣效

1.3bpe（bytepairencoding，字节对编码）分词算法

原⽂作者讲的很详细！

资料

理解bpe

bpe分词算法的原理以及在机器翻译中的应⽤

机器翻译bpe——bytes-pair-encoding以及开源项⽬subword-nmt快速⼊门

理解tokenize

深度学习实战（4）如何向BERT词汇表中添加token，新增特殊占位符

本文发布于:2022-11-26 10:44:37，感谢您对本站的认可！

上一篇：hypothesis

留言与评论（共有 0 条评论）