维普资讯
计算机科学2006Vo1.33 No.2
电子邮件分类中的特征选择 )
陈超兰张自力
(西南大学智能软件与软件工程重点实验室 重庆400715)
摘要 电子邮件是互联网的最重要应用之一,尽管给A'ff1日常工作和生活带来很大便利,但也带来了一种令人讨厌
的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个
基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mi u
tra’s算法和顺序前进搜索法优点的邮件特征选择方法 实验结果表明该方法能够改进邮件分类的准确率,验证了本
文方法的有效性和可行性。
关键词垃圾邮件,邮件分类,特征选择
Feature Selection in E-maiI Classification
CHEN ChadLan ZHANG Zi—Li
(Key La1.of Intelligent Software& Software Engineering,oSwth West China Llniversity。Chongqing 400715)
Abstract Bmailis one of the most popular services of the Internet.E_mail has brought US great convenience in our
daily work and 1ire.It has brought US an annoying byproduct Spam.How tO classify incoming E-mails and fliter
spare has attracted much attention.One fundamental yet important issue in E-mail classification iS how to select the ap
propriate features.Based on the analysis and comparison of several typical feature selection methods for E-mail classifi
cation。a new method iS proposed,which combines both Mitra’S and Sequential Forward Selection.Experimental result
shows that the proposed method can improve the precision of E-mail classification.
Keywords Spam。Bmail classifying,Feature selection
1 引言
征属性进行特征选择都是最基础也是很重要的一步。不同的
特征选择算法选出的特征属性子集差异很大,对最后的邮件
互联网7O 以上的应用是电子邮件,其中垃圾邮件 分类准确率产生很大的影响。
(SPAM)是指未经收件人请求而发送的电子邮件。垃圾邮件
针对这个问题,本文在分析比较几种用于邮件分类的典
破坏了电子邮件的正常流通秩序,对丰十会的危害十分严重。
型特征选择方法基础上,提出了一种新的邮件特征选择方法。
据统计,全世界每天的电子邮件其中lO 以上为垃圾邮件。
该方法结合了Mitra’s算法和SFS算法的优点,克服了SFS
根据调查,2004年全球垃圾邮件达到3.3万亿封(2003年为
算法一旦选人某个特征就不能删除的缺点,实验结果表明该
1.6万亿封),阁此而造成的损失为1190亿美元(2003年为
方法能够提高邮件分类的准确率。
580亿美元)(http://star_techcentra1.com.tech/story.asp)。
据Ferris公司的最新研究报告称,2005年垃圾邮件给全球的
2邮件分类的总体流程
生产力造成的损失和其他反垃圾邮件的投资将达到500亿美
原始数据集
元。垃圾邮件占用邮件服务器大量网络资源、系统资源、存储
特征选择
资源;垃圾邮件攻击会导致系统瘫痪、服务中断;各种垃圾广
告邮件,阻碍正常通讯.使人厌烦,导致用户投诉,并极其容易
决策系统
诱发经济犯罪等。如何有效地控制垃圾邮件的蔓延,成为亟
训练集TR
测试集TE
待解决的一个问题
二[
目前一般的垃圾邮件解决方法是安装智能过滤器,主要
离散化r—.1断点集
离散化
是通过一定的过滤规则(如黑名单…、关键词等)来对垃圾邮
________●___-_____-_-_——
———
土—一
件进行过滤,其过滤过程实质是一个分类过程,即将分类为垃
值约减(GA)
规则匹配
圾邮件的一类邮件过滤掉,这在很大程度上抑制了垃圾邮件
的泛滥。但它同时也带来了一系列的问题,过滤器有可能会
创建规则卜_叫决策规则I I计算可能性
把非垃圾邮件当作垃圾邮件过滤掉,给用户造成很大的损失。
所以,如何提高邮件分类的准确率就成为邮件过滤研究中的
预测结果
一
个重点也是一个难点问题。
要提高邮件分类的准确率,目前研究较多的是采用不同
图1基于粗糙集邮件分类系统流程简图
的分类算法L2-4.]。然而,对于不同的分类算法而言,对邮件特
*)受到重庆市自然科学基金资助 陈超兰硕士研究生。主要研究方向:人工智能、邮件分类。张自力博士,教授,主要研究方向:多代理系
统,人工智能,混合智能系统等。
・
73 ・
本文发布于:2023-11-18 17:31:36,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700299896232536.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:电子邮件分类中的特征选择.doc
本文 PDF 下载地址:电子邮件分类中的特征选择.pdf
留言与评论(共有 0 条评论) |