维普资讯
工程科技 《锏陵譬院譬籁 ̄2oo8年第2期
基于多规则的客户端邮件过滤系优
高良诚
(1.合肥工业大学,安徽合肥230009;2.铜陵职业技术学院,安徽铜陵244000)
摘要:文章在分析传统反垃圾邮件技术的基础上,提出了一种基于多规则的客户端邮件过滤系统的设计模型。该系统采用
黑白名单技术和基于CCERT规则集相结合的过滤技术,通过引入用户反馈机制,能适应特定用户的个性化需求,进
行垃圾邮件过滤,从而降低误报率,提高反垃圾邮件系统的可用性,具有较好的实用效果。
关键词:反垃圾邮件技术;黑自名单;关键字匹配;用户反馈
中图分类号:TP316.8 文献标识码:A 文章编号:1672—0547(2008)02—0075—02
电子邮件系统是互联网的一个成功典范,电子邮件已成为
从而降低误报率。
Internet用户最常用的通信方式之一。由于邮件系统自身的缺
设定两个阈值W1和W2(WI<W2),以及邮件为垃圾邮件
陷,近年来垃圾邮件问题日益严重,给互联网用户带来很多的烦 的概率值M,判定邮件的标准是:
恼和侵害,严重污染了我们的网络环境,占用了大量的网络带
如果M<W1,判定为正常邮件:
宽、存储和运算资源。
如果M_)w2,判定为垃圾邮件:
据中国互联网协会2008年第一次统计报告显示,2007年
如果W1≤M≤w2,判定为疑似邮件。
第四季度,中国互联网用户平均每周收到垃圾邮件数量为16.71
M的值由下式确定:
封,垃圾邮件的危害越来越严重,2007年垃圾邮件给中国造成的 M=F()( 的初始值为o)
损失达188A亿人民币。如何有效地防范垃圾邮件,已成为网络
X:{xl。x2'…},xi表示邮件的某个信头特征,各个xi之间是
信息安全领域的重要课题。
互相独立的变量。如果xi符合垃圾邮件的某项显著特征,例如非
1.研究现状
法的邮件服务器地址,则置M=W2+I,表明这是一封垃圾邮件,
采用反垃圾邮件技术对邮件进行过滤,是目前防范垃圾邮
同时不考虑变量Y。
件的普遍做法。反垃圾邮件技术主要有:反向域名验证技术、黑
Y=fy1,y2,…},yi表示邮件标题或正文中包含垃圾邮件某关
白名单技术、基于规则的过滤技术、基于统计的过滤技术。
键宇。如果包含某关键宇,则给变量M累加一个该关键宇对应
基于规则和统计的过滤技术具有较高的准确率和智能性,
的权值。
得到比较广泛的运用。但是由于垃圾邮件过滤是个复杂的问题,
3.多规则过滤技术
目前还没有能完美地过滤所有垃圾邮件的技术,垃圾邮件过滤
3.1 白名单、黑名单技术
过程中主要存在两个问题: 黑名单(Black List)和白名单( ite List)分别是已知的垃
(1)误报率的问题 圾邮件发送者和可信任的发送者的IP地址、邮件地址或域名。
目前,没有一种反垃圾邮件技术能保证过滤工作完全准确。
“黑名单”立足于排除,服务器拒绝来自黑名单地址的邮件。“白
对用户而言,漏报几封邮件是可以接受的,而将正常邮件判定为
名单”则主要用来确认合法的电子邮件来源,减少黑名单排除失
垃圾邮件,并进行丢弃,可能给用户带来很大的损失。
误的情况。
(2)垃圾邮件判定标准问题
目前比较流行的是实时黑名单(Realtime B1ackhole iLst,
垃圾邮件类别的判定标准和用户密切相关,如一个产品宣 RBL)技术,这种技术非常简单,而且效率很高。但是垃圾邮件层出
传广告,有人认为是垃圾邮件,但有人则认为是正常邮件。另外,
不穷,及时更新黑白名单是困难的,所以在实际应用中,这种技术
用户对垃圾邮件的判别标准也会随时间推移而改变,而且垃圾 很难取得一个非常好的效果,通常和其他一些技术混合使用。
邮件本身的内容形式也在不断地变化。这些都造成邮件类别的
32基于CCERT规则集的过滤技术 .
不确定性。
基于统计方法的过滤技术,其优点是规则由机器学习自动生
目前的邮件过滤模式主要有服务器过滤和客户端过滤,相 成,时效性较强,但规则与训练的邮件样本集有关,因此,可推广性
比服务器过滤,客户端过滤能及时地反馈用户个性化信息,使过
不强。基于规则方法的过滤技术,其优点是可以共享规则集,因此,
滤系统更准确,更适合特定用户需求。
可推广性较强,但规则的生成依赖人工,因而时效性不强。
针对上述问题,本文主要研究多规则过滤方法,来提高过滤的 目前,中国教育和科研计算机网紧急响应组(CCERT)通过
准确性,采用客户端过滤模式,能体现用户的个性化需求。在此基 采集教育科研网内大量的垃圾邮件样本,用统计方法自动生成
础上,提出了一种基于多规则的客户端邮件过滤系统的设计。
规则集Chinese rules.cf,依据规则的匹配来对新邮件进行分析
2垃圾邮件数字化描述
判断。该方法吸取了基于规则和基于统计技术的优点:首先它是
考虑到垃圾邮件判定过程中,降低误报率的重要性,将邮件
一
种基于规则的方法,因此推广性很强,它的规则又是由统计方
分为三个类别:正常邮件、垃圾邮件和疑似邮件。在邮件判定时, 法自动生成的,可以能比较快地跟踪垃圾邮件的新动态,因此它
对于垃圾邮件特征不是特别明显的邮件,将其归类为疑似邮件,
的时效性也很强。
收稿日期:2008—03—13
作者简介:高良城(1971一),男,合肥工业大学计算机与信息学院在读硕士研究生,铜陵职业技术学院信息工程系讲师,主要研究方向为计算机
网络安全。
一
75—
本文发布于:2023-11-18 16:37:03,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700296623219068.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:基于多规则的客户端邮件过滤系统.doc
本文 PDF 下载地址:基于多规则的客户端邮件过滤系统.pdf
留言与评论(共有 0 条评论) |