基于BERT的超长文本分类模型

更新时间:2023-06-24 11:23:28 阅读: 评论:0

基于BERT 的超长⽂本分类模型
基于BERT 的超长⽂本分类模型
0.Abstract
本⽂实现了⼀个基于BERT+LSTM超长⽂本分类的模型, 评估⽅法使⽤准确率和F1 Score.
项⽬代码github地址:
1.任务介绍
⽤BERT做⽂本分类是⼀个⽐较常见的项⽬.
但是众所周知BERT对于⽂本输⼊长度有限制. 对于超长⽂本的处理, 最简单暴⼒⽆脑⾼效的办法是直接截断, 就取开头这部分送⼊BERT. 但是也请别看不起这种做法, 往往最简单,最Naive的⽅法效果反⽽⽐⼀顿操作猛如虎 复杂模型来得好.
这⾥多提⼀句为什么. 通常长⽂本的⽂章结构都⽐较明确, ⽂章前⾯⼀两段基本都是对于后⾯的概述. 所以等于作者已经帮你提取了⽂章⼤意, 所以直接取前⾯⼀部分理论上来说是有意义的.
当然也有最新研究表明取⽂章中间部分效果也很不错. 在此不展开.笞刑
本⽂实现的是⼀种基于HIERARCHICAL(级联)思想的做法, 把⽂本切成多⽚处理. 该⽅法来⾃于这篇论⽂ .
⽂中提到这么做还能降低lf-attention计算的时间复杂度.
假设原句⼦长为n, 每个分段的长度是k. 我们知道最原始的BERT计算时间复杂度是O(n ), 作者认为,这么做可以把时间复杂度降低到O(nk).因为我们把n分数据分割成k⼩份, 那么我们⼀共要做n/k次, 每次我们的时间复杂度是k , 即O(n/k * k ) = O(nk)
数据集
这次我们测试该模型在两种语⾔上的效果. 分别是中⽂数据集和英语数据集.审慎
中⽂数据集依旧是我们的⽼朋友ChineNLPCorps提供的不同类别商品的评论.艾滋病的潜伏期
英语数据集来源于Kaggle⽐赛, ⽤户对于不同⾦融产品的评论.
由于两种数据集训练预测上没有什么本质区别, 下⽂会⽤英语数据集来演⽰.
评估⽅法保护环境的倡议书
本项⽬使⽤的评估⽅法是准确率和F1 Score. ⾮常常见的分类问题评价标准.
测试集
此项⽬中直接取了数据集⾥⼀⼩部分作为测试集.
2.数据初步处理
222
观察数据集,我们发现⽤户评论是有NaN值的. ⽽且本次实验⽬的是做超长⽂本分类. 我们选取⾮NaN值,并且是长度⼤于250的评论.
93年是什么命筛选完后我们保留⼤约17k条左右数据
低音萨克斯如图, 准确率达到了88%. 训练数据不过10k的数量级, 对于深度学习来说是⾮常少的. 这⾥不得不感叹下BERT作为预训练模型在⼩样本数据
随后我们将这些分割的句⼦分离成单独的⼀条数据. 并为他们加上label.
辩论赛怎么给对方下套
对⽐原⽂本可以发现, index 1~ index4来源于同⼀句句⼦. 它被分割成了4份并且每份都拥有原⽂本的label.
4.最终模型
接着, 我们提取出这些⽂本的句⼦表⽰.

本文发布于:2023-06-24 11:23:28,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1052687.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   模型   分类   超长   训练   作者   部分
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图