维普资讯
■
酗 网络安全
智能过滤垃圾邮件
■ /王鑫孙东红 (5)用户反馈信息收集模块,该模块负责收集邮件用户对判
交互式中文垃圾邮件过滤系统是基于“统计”规则的过滤方 定正确性的反馈信息,并将反馈信息保存在用户反馈信息数据库
法设计并实现的,它兼具基于规则过滤方法与机器学习,以及概 中,供用户反馈信息学习模块使用。
率统计过滤方法的垃圾邮件过滤系统的优点,同时还增加了邮件 (6)用户反馈信息学习模块。该模块根据用户反馈信息动态
用户与垃圾邮件过滤器之间的交互,利用用户对邮件判定是否正 调整规则集中引起错判的过滤规则的权重,从而提高垃圾邮件过
确的反馈信息动态调整过滤器,从而提高过滤准确度。 滤器的准确度,同时还能提高规则更新的速度。
系统框架 系统实现
整个交互式中文垃圾邮件过滤系统的结构如图l所示。 现对交互式中文垃圾邮件过滤系统几个重要模块的具体实现
(1)CCERT垃圾邮件样本数据库。我们将来自CCERT垃圾 描述如下。
邮件蜜罐网、用户举报以及CCERT应急响应系统接收和处理的 (1)规则生成模块。CCERT垃圾邮件过滤规则主要针对中
垃圾邮件,经过分析整理后创建了CCERT垃圾邮件样本集合。 文垃圾邮件的标题和内容部分。以20万封中文垃圾邮件样本作为
(2)规则生成模块。该模块主要通过分析垃圾邮件样本数据 样本集,生成中文关键字过滤规则。采取的主要手段是用分词工
创建垃圾邮件过滤规则,所有过滤规则保存在规则集中并应用到 具对邮件样本的Subject部分lI]Body部分分别进行分词,然后各
邮件服务器的垃圾邮件过滤引擎中。 自统计词频,将词频最高的一组关键字提取出来,分别生成针对
(3)规则权重训练模块。该模块负责用机器学习的方法给规 Subject部分和Body部分的关键字过滤规则。这里将Body部分
则集中的所有规则找到最佳的规则权重分布。规则集中的每一条 和Subject部分分开分析,主要是为了在邮件服务器负载较大时
规则都有一个权重,权重越大,说明符合这条规则的邮件是垃圾 可以只启用Subject部分的过滤规则,避免扫描邮件内容来提高
邮件的可能性越大。 处理速度。
(4)垃圾邮件过滤引擎。该过滤器包含了所有过滤规则以及 (2)规则权重训练模块。用改进遗传算法对规则生成模块生
规则的权重,当邮件服务器收到邮件时,它就会对邮件应用所有 成的中文过滤规则进行权重训练,寻找CCERT垃圾邮件过滤规
规则,给邮件“打分”,根据所有规则来判定是否为垃圾邮件。被 则集中过滤规则的最优权重分布。用改进遗传算法寻找规则权重
判定为Spam的邮件并不会被邮件服务器丢弃,而是在邮件标题 的最优分布时,种群中的每个染色体向量代表一组可能的规则权
前打上Spam标签,这样邮件用户就可以利用客户端软件将其直 重分布,向量的维数等于CCERT垃圾邮件过滤规则集中的规则
接“扫除”到垃圾邮件夹。 总数,每一维代表一条规则,每一维的值表示相应规则的权重。算
i垃圾邮件拳报 CcERT垃 始化时采用小群体竞争法,交叉
圾邮件样 邮件服务嚣 IIIll ̄-W尸一
.
OcE盯垃圾邮件 本数据库 算子采用优选父代自适应交叉
童■系统 操作
,
变异算子采取非一致自适
】 E则生成模块 盘圾邮件过滤5 I 曲
5 基 应变异操作,在产生子代群体
时,允许父代群体一起参与竞
争,同时采用最优保留策略和两
CCERT垃埘 ,口r’Ⅸ●^1■月 两竞争选择策略。在选择适应度
邮件过滤 规则权重训练模块 数据库 息收囊奠块
规则簟 函数时,按照可能的规则权重分
广_: L +括 . 】级, — ^h丁,坚^
54中国教育同络2oo6 4
本文发布于:2023-11-18 17:35:58,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700300158219111.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:智能过滤垃圾邮件.doc
本文 PDF 下载地址:智能过滤垃圾邮件.pdf
留言与评论(共有 0 条评论) |