TextCNN简介

更新时间:2023-06-20 19:40:38 阅读: 评论:0

dods
TextCNN简介
论⽂名:  TextCNN: Convolutional Neural Networks for Sentence Classification
戏谑
摘要:
1. 使⽤简单的CNN模型在预训练词向量基本上进⾏微调就可以在⽂本分类任务上得到很好的结果。
2. 通过对词向量进⾏微调⽽获得的任务指向的词向量能够得到更好的结果。
aisia
3. 我们也提出了⼀种即使⽤静态预训练词向量⼜使⽤任务指向词向量的⽂本分类模型。
小猴子英文
4. 最终我们在7个⽂本分类任务中的四个上都取得了最好的分类准确率。
TextCNN结构:
TextCNN 的 Dropout:
raign原理: 在神经⽹络的传播过程中,让某个神经 元以⼀定的概率p停⽌⼯作,从⽽增加模 型的泛化能⼒。
TextCNN 的 L2 正则:
褥垫
降低过拟合程度:
正则化之所以能够降低过拟合的原因在于,正则化是结构风险最⼩化的⼀种策略实现。给loss function加上正则化项,能使得新得到的优化⽬标函数h = f+normal,需要在f和normal中做⼀个权衡(trade-off),如果还像原来只优化f的情况下,那可能得到⼀组解⽐较复杂,使得正则项normal⽐较⼤,那么h就不是最优的,因此可以看出加正则项能让解更加简单,符合奥卡姆剃⼑理论,同时也⽐
较符合在偏差和⽅差(⽅差表⽰模型的复杂度)分析中,通过降低模型复杂度,得到更⼩的泛化误差,降低过拟合程度。
L1正则化和L2正则化:
L1正则化就是在loss function后边所加正则项为L1范数,加上L1范数容易得到稀疏解(0⽐较多)。L2正则化就是loss function 后边所加正则项为L2范数的平⽅,加上L2正则相⽐于L1正则来说,得到的解⽐较平滑(不是稀疏),但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度⽐较多,降低模型的复杂度。
实验结果与分析:
在7个⽂本分类任务中的四个上取得了最好 的分类效果。
· CNN-rand: 使⽤随机初始化的词向量
· CNN-static: 使⽤静态预训练的词向量
· CNN-non-static: 使⽤微调的预训练的 词向量
满满当当· CNN-multichannel: 同时使⽤静态预训 练的词向量和微调的预训练的词向量
对于预训练词向量的微调可以改变词对之间 的相似度关系。
例如以下的静态和⾮静态的处理
超参分析
· Embedding⽅式
· 卷积核⼤⼩
· 卷积核个数
· 激活函数
· Dropout
· L2正则
关键点
· 预训练的词向量——Word2Vec 、Glove
英文mp3· 卷积神经⽹络结构——⼀维卷积、池化层
· 超参选择——卷积核选择、词向量⽅式选择 创新点
·
提出了基于CNN的⽂本分类模型TextCNN
宽慰的意思
· 提出了多种词向量设置⽅式
· 在四个⽂本分类任务上取得最优的结果
bosun· 对超参进⾏⼤量实验和分析
总结:
· 在预训练模型的基础上微调就能够得到⾮常好的结果,这说明预训练词向量学习到了⼀些通⽤的特征。· 在预训练词向量的基础上使⽤简单模型⽐复杂模型表现的还要好
· 对于不在预训练词向量中的词,微调能够使得它们能够学习更多的意义。

本文发布于:2023-06-20 19:40:38,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1000545.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:向量   正则   能够   训练
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图