第25卷第10期
2008年10月
计算机应用与软件
Computer Applications and Software
Vo1.25 NO.10
0ct.2008
累积反馈学习的简单贝叶斯垃圾邮件过滤
张学农 张立成
(广东药学院网络中心广东广州510006)
(中山大学软件研究所广东广州510275)
摘 要 给出了一种基于累积反馈学习的简单贝叶斯邮件过滤方法。在此基础上,通过领域规则的引入,对基于累积反馈学习的
简单贝叶斯过滤方法进行了改进。实验结果表明累积反馈学习对不断保持和提高分类器的分类效果是必要的。
关键词 垃圾邮件过滤 简单贝叶斯 累积反馈学习
NAIVE BAYESIAN SPAM FILTERING BASED oN
ACCUMULATIVE FEEDBACK LEARNING
Zhang Xuenong Zhang Licheng ,
(Network Center,Guangdong Pharmace¨tical Universit) ,Guangzho“5 0OD6,GMangdong,ChinⅡ)
。(Institute of Software Research,Sun Yat—Sen University,Guangzhou 510275,Guangdong,China)
Abstract In this paper it proposes a Nai've Bayesian spam filtering algorithm based on accumulative feedback mode1.Applying some do—
main rules in our accumulative feedback Na ̄'ve Bayesian spare filter,the filter’S performance is improved.Experimental results indicate that
the accumulative feedback method is necessary on maintaining and enhancing the classiifer’s effect.
Keywords Spare filtering Na'fve Bayesian Accumulative feedback learning
我们要进行分类处理的对象是文本,通常采用向量空间模
0 引 言
基于内容的垃圾邮件过滤方法…是处理垃圾邮件问题的
型来表示。文本可表示为一个n维向量( , ,…,W ),其中
W (i=t,2,…,n)表示第i个特征项的权重, 是特征项的个
数,特征项可以是字、词、短语等。权重有多种计算方法,最简单
的是布尔权重。更一般的情况下,权重计算采用词频和文档频
常用方法。现主要基于内容的垃圾邮件过滤方法有:贝叶斯方
法 、k近邻、支持向量机、神经网络、Boosting方法、决策树、粗
糙集方法等。简单贝叶斯分类 方法利用贝叶斯公式计算文
本属于每个类别的概率,从而将文本归为概率最大的一类。从 c )},其中m ∈M,C ∈{s,L},样本数为d。
目前的分类效果看,该方法的结果比较理想 。国内学者也进 定义3样本邮件m =( ,…,W ), =1,2,…,d,
行了有益的研究 。 厂(m )=c ,选择特征数为n。
.
次的某种组合。
定义2 邮件样本是集合{(m ,c ),(m:,c:),…,(m ,
垃圾邮件在内容和形式上是不断变化的。垃圾邮件发布者 待分类的邮件可表示为m =( w …,w ),分类器的
为了使其邮件能到达最终用户,逃脱过滤器的检查,会不断地改 {s, }。 任务是将m 分到相应的类别中去。即,(m )=c ,C
变垃圾邮件的内容和形式;其次,垃圾邮件发布的内容多半是产
品推销、网站宣传等广告信息,具有时间性和潮流性;有的垃圾
邮件是由于蠕虫病毒所产生的,邮件内容就会因病毒不同而不
同。为保持邮件过滤器的效果,需不断累积新的知识,并且强化
其对误判邮件的学习。
取新的知识,并且强化对误判邮件的学习。
为了保持邮件过滤器的效果,本文采用累计反馈学习的方法获
2基于简单贝叶斯的累积反馈学习
学习的主要任务是求解类的先验概率P(C),用特定方法
垃圾邮件过滤问题的描述
基于内容的垃圾邮件过滤,我们的目标就是通过一定的机
器学习方法,得到一个邮件过滤器(分类器),也就是邮件判定
函数,,我们能通过函数厂来判断一封邮件是正常邮件还是垃圾
邮件。
定义1 邮件过滤器是判定函数_厂:M一{S,L},其中M为待
选择合适的特征词 ,计算特征词 的类条件概率P( l C),
而P(C)、P( 『C)可以通过对邮件样本的相关的统计信息来
计算得到。这些统计信息包括:用于训练的邮件样本总数Ⅳ,垃
圾邮件总数 ,正常的邮件总数 ,特征词 在垃圾邮件中出
现的次数Ⅳ 和其在正常邮件中出现的次数Ⅳ
,
。
进行累积反
收稿日期:2007—03—09。张学农,博士,主研领域:知识工程与
应用。
处理的邮件集合, 表示正常邮件,s表示垃圾邮件。
本文发布于:2023-11-18 16:32:49,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700296369219065.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:累积反馈学习的简单贝叶斯垃圾邮件过滤.doc
本文 PDF 下载地址:累积反馈学习的简单贝叶斯垃圾邮件过滤.pdf
留言与评论(共有 0 条评论) |