电子邮件分类中的特征选择

更新时间:2023-11-18 17:31:36 阅读: 评论:0

会计实习论文-新生报到

电子邮件分类中的特征选择
2023年11月18日发(作者:卷心菜泡菜)

维普资讯

计算机科学2006Vo1.33 No.2

电子邮件分类中的特征选择 )

陈超兰张自力

(西南大学智能软件与软件工程重点实验室 重庆400715)

要 电子邮件是互联网的最重要应用之一,尽管给A'1日常工作和生活带来很大便利,但也带来了一种令人讨厌

的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个

基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mi

a’s算法和顺序前进搜索法优点的邮件特征选择方法 实验结果表明该方法能够改进邮件分类的准确率,验证了本

文方法的有效性和可行性。

关键词垃圾邮件,邮件分类,特征选择

Feature Selection iE-maiI Classificaton

CHEN ChadLan ZHANG Zi—Li

(Key La1.of Intellgent Software& Software Engineering,wth West China Llniversity。Chongqing 400715)

Abstract Bmailis one of the most popular services of the Internet.E_mai has brought US great convenience in our

daily work and 1re.It has brought US an annoying byproduct Spam.How tO classify incoming E-mails and fliter

spar has attracted much attention.One fundamental yet important issue in E-mai classification iS how to select the ap

propriate features.Based on the analysis and comparison of several typical feature selection methods for E-mai classifi

cation。a new method iS proposed,which combines both Mitra’S and Sequential Forward SelectionExperimental result

shows that the proposed method can improve the precision of E-mai classification.

Keywords Spam。Bmail classifying,Feature selection

引言

征属性进行特征选择都是最基础也是很重要的一步。不同的

特征选择算法选出的特征属性子集差异很大,对最后的邮件

互联网7O 以上的应用是电子邮件,其中垃圾邮件 分类准确率产生很大的影响。

(SPAM)是指未经收件人请求而发送的电子邮件。垃圾邮件

针对这个问题,本文在分析比较几种用于邮件分类的典

破坏了电子邮件的正常流通秩序,对丰十会的危害十分严重。

型特征选择方法基础上,提出了一种新的邮件特征选择方法。

据统计,全世界每天的电子邮件其中lO 以上为垃圾邮件。

该方法结合了Mia’s算法和SFS算法的优点,克服了SFS

根据调查,2004年全球垃圾邮件达到3.3万亿封(2003年为

算法一旦选人某个特征就不能删除的缺点,实验结果表明该

1.6万亿封),阁此而造成的损失为1190亿美元(2003年为

方法能够提高邮件分类的准确率。

580亿美元)(htp://star_techcentra1.com.tech/story.asp)。

据Ferris公司的最新研究报告称,2005年垃圾邮件给全球的

邮件分类的总体流程

生产力造成的损失和其他反垃圾邮件的投资将达到500亿美

原始数据集

元。垃圾邮件占用邮件服务器大量网络资源、系统资源、存储

特征选择

资源;垃圾邮件攻击会导致系统瘫痪、服务中断;各种垃圾广

告邮件,阻碍正常通讯.使人厌烦,导致用户投诉,并极其容易

决策系统

诱发经济犯罪等。如何有效地控制垃圾邮件的蔓延,成为亟

训练集TR

测试集TE

待解决的一个问题

二[

目前一般的垃圾邮件解决方法是安装智能过滤器,主要

离散化r—.1断点集

离散化

是通过一定的过滤规则(如黑名单…、关键词等)来对垃圾邮

________●___-_____-_-_—

土—一

件进行过滤,其过滤过程实质是一个分类过程,即将分类为垃

值约减(GA)

规则匹配

圾邮件的一类邮件过滤掉,这在很大程度上抑制了垃圾邮件

的泛滥。但它同时也带来了一系列的问题,过滤器有可能会

创建规则卜_叫决策规则I I计算可能性

把非垃圾邮件当作垃圾邮件过滤掉,给用户造成很大的损失。

所以,如何提高邮件分类的准确率就成为邮件过滤研究中的

预测结果

个重点也是一个难点问题。

要提高邮件分类的准确率,目前研究较多的是采用不同

图1基于粗糙集邮件分类系统流程简图

的分类算法L-4。然而,对于不同的分类算法而言,对邮件特

*)受到重庆市自然科学基金资助 陈超兰硕士研究生。主要研究方向:人工智能、邮件分类。张自力博士,教授,主要研究方向:多代理系

统,人工智能,混合智能系统等。

73 ・

38节-一个点加一个下

电子邮件分类中的特征选择

本文发布于:2023-11-18 17:31:36,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/1700299896232536.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:电子邮件分类中的特征选择.doc

本文 PDF 下载地址:电子邮件分类中的特征选择.pdf

标签:反垃圾邮件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|