首页 > 专栏

基于卷积神经网络的文档特征提取方法

更新时间:2023-12-06 03:05:13 阅读: 评论:0

2023年12月6日发(作者:生日贺词大全)

-

基于卷积神经网络的文档特征提取方法

基于卷积神经网络的文档特征提取方法

作者:刘钢,李宗晨,郭建伟

来源:《江苏科技信息》 2018年第14期

0 引言

进入互联网时代以来,各种技术快速发展,推动人们进入了信息时代。中国网民的规模在2016 年以来就达到了7.31亿人,和全球的平均水平相比提高了3.1%[1]。随着上网用户的增多,人们在网络上贡献了各式各样的文献,这些文献形成了海量的文本数据,潜藏着巨大的价值。但是,文献的文类和整理是一项非常具有挑战性的工作,抽取文档特征信息成了目前重要研究方向之一。

1 卷积神经网络模型和语言处理模型

1.1 卷积神经网络

卷积神经网络是由多个层次组成的,每一个层次是一个二维平面,多个独立的神经元是构成二维平面的基本组成单元[2]。在卷积神经网络模型中,根据是否采用补零法将其分为宽卷积和窄卷积两个分类。宽卷积适合于滤波器和输入向量相差较大时使用。一般形式为:

nout =(nin +2?npadding-nfilter)+1 (1)式中,nout是卷积的输出长度,nin是卷积的输入长度,npadding是在扩展矩阵以外的元素的长度,nfilter是滤波器的长度。本文使用窄卷积达到运行时间短,效率高的效果。

1.2 Word2vec语言处理模型

Word2vec是一个典型的基于深度学习思想的文本量化处理工具,和以往模型工具不同,它既能够分析出语义,同时还能生成每个词的词向量表示,便于其他模型进行学习和挖掘[3]。通过Word2vec生成的词向量,还可以进一步得到句子的向量[4]。目前,这个模型在文本处理上得到了很多应用[5]。在Word2vec 中,有两种方式可以得到词向量,分别是CBOW和Skipgram[6-7]。这两种方法中,前者是根据上下文预测中心词,后者是用中心词预测上下文。

2 卷积神经网络文本特征提取模型

2.1 基于卷积神经网络的文本特征提取方法

文本数据由Word2vec计算后生产词向量矩阵,矩阵有3个区域,每个区域有2个滤波器,卷积层的神经元经过卷积操作,设置步长和激活函数,通过softmax分类器输出文本特征结果,如图1所示。

2.2 卷积神经网络的构建

2.2.1 模型结构

在本文的方法中,使用的神经网络模型中,包括了卷积层,池化层和全连接层。其中详细的参数如表1所示,在全连接层,使用了dropout策略。聚类方法选择了K-means方法。

图1 基于卷积神经网络提取文本特征过程

表1 模型结构参数描述

2.2.2 Dropout与参数优化

为了解决过拟合问题,本文的卷积神经网络模型采用Dropout 策略[8]。设置Dropout

的比例为50%。采用为Mini-batch SGD训练方法,设置动量为0.9,学习速率为0.01,对Mini-batch计算梯度数值。

2.3 网络训练

基于卷积神经网络文本特征提取训练过程如下:

(1)将语料数据样本输入到网络模型中。

在实验中可以发现,准确率在实验当中随着迭代次数而改变。如表4所示,总结了不同迭代次数下的测试准确率。从表中可见,在搜狗语料数据和复旦语料数据上,当迭代达到200次后本文方法的准确率变得稳定;而在哈工大语料数据上,在250次迭代达到稳定,同时也得到了最高的准确性。迭代次数和稳定性并不是正比例增长的,因此实验中需要按照不同数据集的情况找到合适的迭代次数。迭代次数不同下不同语料数据集的准确率对比如图2所示。

图2 迭代次数不同下不同语料数据集的准确率对比

表4 语料数据集不同迭代次数下的测试准确率(%)

4 结语

互联网与移动互联网时代的到来,每天都有海量的文本数据等待着挖掘,这些文本数据中包含着潜在的、有价值的信息。传统方法对文本数据的特征提取时会遇到维度灾难等问题。因此,本文使用了卷积神经网络进行特征提取,简化了问题的复杂性。文中描述了文本数据提取特征的详细过程,给出了卷积神经网络结构过程图以及参数优化等相关内容,通过复旦大学、搜狗和哈尔滨工业大学中文语料库的实验,K-means聚类算法结果作为验证卷积神经网络提取文本特征衡量标准,实验表明,卷积神经网络能够有效地提取文本数据的特征,准确率比较高。

[1]中国国信网.第39次中国互联网络发展状况统计报告[EB/OL].(2018- 01- 22)[2018- 04- 26]./cnnic39/.

[2]许厚金,刘永炎,邓成玉,等.基于相似中心的K-means文本聚类算法[J].计算机工程与设计,2010(8):1802-1805.

[3]朱磊.基于Word2vec词向量的文本分类研究[D].重庆:西南大学,2017.

[4]张谦,高章敏,刘嘉勇.基于Word2vec的微博短文本分类研究[J].信息网络安全,2017(1):57-62.

[5]唐明,朱磊,邹显春.基于Word2vec的一种文档向量表示[J].计算机科学,2016(6):214-217,269.

[6]李跃鹏,金翠,及俊川.基于Word2vec的关键词提取算法[J].科研信息化技术与应用,2015(4):54-59.

[7]熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报(工程技术版),2015(1):43-48.

[8]NG H W,NGUYEN V D,VONIKAKIS V,et learning for emotion

recognition on small datatsusing transfer learning[C].Washington:ACM

Interna?tional Conference on Multimodal Interaction,2015.

-

基于卷积神经网络的文档特征提取方法

本文发布于:2023-12-06 03:05:12,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/1701803113237050.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:基于卷积神经网络的文档特征提取方法.doc

本文 PDF 下载地址:基于卷积神经网络的文档特征提取方法.pdf

标签:卷积   文本   神经网络   数据   模型
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|