信息科学 31
基于内容的反垃圾邮件技术比较分析
赵卓
(长沙市质量技术监督信息管理所,湖南长沙410013)
摘要当前,在基于内容的各种反垃圾邮件技术中,基于贝叶斯的反垃圾邮件技术显示出了较强的分类能力和较高的准确性,而基于人工
免疫系统的反垃圾邮件技术则具有良好的自适应、自学习和鲁棒性。两个技术的结合在实践测试中取得了良好的效果。
关键词反垃圾邮件;贝叶斯;人工免疫系统
中圈分类号TP 文献标识码A 文章编号1673—9671一(2010)072—0031—01
1贝叶斯理论 其中 是若干特征变量值( , ,…,X )构成的一个实例,在计算的
贝叶斯方法以概率理论为基础,用于处理统计学中不确定性问题。
过程中,属于垃圾邮件类情况下,特征变量 出现的概率可以采用如下
对于概率公式:
方式计算:
Pr l 1=二 = f1)
P(Xi=xi 塑 ㈩
’ P( )
其中, , 表示两个事件,且Pf >0,该公式表示在事件 发
基于贝叶斯算法的反垃圾邮件过滤系统具有较强分类能力,但在识
生的前提下事件 发生的条件概率。
别时很大程度依赖于以往的统计结果,自适应能力较弱,且对已有样本
在此基础上,有贝叶斯(Bayes)公式如下:
的变异样本辨识效果不尽人意。
P(B I 、: ! 璺
鉴于上述弱点,人工免疫系统以其良好的自适应、自学习和鲁棒性
、 。 。
一
n r,、
启示着反垃圾邮件技术的研发,依据此开发的反垃圾邮件过滤系统的运
>’Pf lB )Pf 1 …
作原理如下:
其中B,,B .., 为一系列互不相容事件,RP(B )>0(i=1,2,
当一封邮件到达时,提取邮件的特征向量,以此生成待定抗原,抗
…
,
n)。 ‘
原首先通过记 细胞检测器,与记忆细胞进行匹配,若出现匹配,则确
一
般而言,人们能根据历史经验或主观判断给出某些事件发生的概
认该邮件为垃圾邮件;若未出现匹配,则将抗原与未成熟细胞检测器中
率,这样的概率没有经过检验,被称之为先验概率。贝叶斯方法则是利
的抗体进行匹配,匹配程度用亲和度表示,若亲和度达到设定的阀值,
用贝叶斯公式,结合调查、统计、实验等方式获取新的信息,对先验概
则抗原为阳性,邮件被判为垃圾邮件;若亲和度小于I爵疽,则抗原为阴
率进行修正,从而得到更符合实际的可能发生概率的预计。
性,这时,邮件被判为正常邮件。
基于贝叶斯的统计分析技术常常被应用于各行各业的分类应用系统
为测试两种技术在反垃圾邮件系统中的应用效果,我们进行了基于
中,因其模型塑造简单易行,运行效果良好而广受欢迎。
贝叶斯算法和基于贝叶斯及人工免疫系统综合算法的两种测试,使用
2人工免疫系统(Artificial Immune System,AIS)理论
了中、英文语料库,中文语料库选取的是中国教育和科研计算机网紧急
生物免疫系统是一个高度进化的生物系统,它旨在区分外部有害抗
相应组(CCERT)发布的数据集“2005-Jul”,包含20308条垃圾邮件和
原和自身组织,从而清除病原并保持有机体的稳定。而AIs则是以此为
9042条正常邮件,英文语料库选用Sparn Assassin语料,可从http://www.
原型从计算的角度产生的面向应用的计算模型。
spmnassassin.唧获得,该语料包含了1897条垃圾邮件和4150 ̄.正常邮件。
AIS的免疫算法一般步骤为:1)定义抗原:将有待解决的问题抽象
所进行的测试是把语料库中邮件分为10份,其中的9份作为训练集,另
成抗原,抗体则对应为问题的求解。2)产生初始抗体:抗体与抗原之
外1份作为测试集,如此交叉做10次,最后取10次实验的平均值作为最
间的亲和度对应问题的评估:亲和度越高,说明解越好。3)计算亲和
后的实验数据,得到了如图1所示的对比结果。
度:计算抗原与抗体之间的亲和度。4)克隆选择:与抗原有较大亲和
★B 憾
度的抗体即为问题的解,在这个过程中,要尽量抑制浓度过高的抗体即
l
是避免局部解,也要淘汰低亲和度的抗体,同时为获得解的多样性以求
最佳解,抗体在克隆时会经历变异(如高频变异等)。5)评估新的抗
a9》
体:若不能满足终止条件,则转向第3)步,重新开始;若满足终止条
件,则当前的抗体为问题的最优解。
准哇薅
AIS因其复杂的仿生原理往往在实践应用中较难建模,但又因其强
确
大的智能化、自学习、自适应等特性吸引着越来越多的研发者将其应用
裹
于各技术领域,以期在智能化发展上有新的突破。
0,9"/
3两种技术在反垃圾邮件系统中的应用
纵观现有的反垃圾邮件技术,可谓百花齐放,层出不穷,归纳一
下,大致有三种:1)基于硼拘过滤;2)基于内容的过滤;3)基于行为
的过滤。而研究人员也致力于研究这三种层次上的新技术新方法,或者
包蛄
对已有的技术进行整合、实践评测、改进。本文分析的技术是基于内容
的过滤技术。
在反垃圾邮件过滤系统中我们常会使用朴素贝叶斯算法,该模型采
塞 譬 § 熹 塞 基 萋 茎 萎 篓
用特征变量独立假设,即假设每个特征变量置都从属于同一个类别变量
垃疑邮件样本皴
C,而它们彼此之间相互独立。
图1两种算法测试结果对比
在反垃圾邮件过滤系统中,我们只考虑两个类别:一类为垃圾邮
件,一类为非垃圾邮件,设C=1表示垃圾邮件,C=0表示非垃圾邮
4结语
件,则应用朴素贝叶斯算法的目标是计算:
可见,在随着邮件数目增多的情况下,基于AIS的过滤系统比单纯
Pr。:1Ix: : ! 三 !!三 2 三 2 (3)
基于贝叶斯的过滤系统更能保持稳定和较高的准确性,当然现在还没有
一
种可以称得上完美的技术方案来彻底解决垃圾邮件的问题,就基于
P(X= 、
(下转第29页)
信息科学 29
浅谈软交换网络的QoS
张颖,李晶波
(中国联合网络通信有限公司哈尔滨分公司,黑龙江哈尔滨150090)
摘要首先阐述服务质量的背景、定义及软交换中的服务质量管理机制和基于服务质量的计费,并对软交换网络中的服务质量进行展望。
关键词软交换网络;服务质量;基于Q0s的计费;IPv6
中图分类号TN 文献标识码A 文章编号1673—9671一(2010)072—0029—01
1 Q0S的背景和定义 是层次化的,即端对端的QoS管理映射到软交换网络系统的分层结构
随着Int rn t规模的不断扩大,网上的实时业务量也在不断增长,软 上,形成了层次化的QoS管理模式。3)QoS管理应当是动态的。在用户
交换网络上的应用类型将会是多种多样。不同的应用对网络的需求也有 端,应该有用户界面,允许用户在会话期间,动态变更Qos承诺(QoS
所不同,应用业务发展的速度突飞猛进,也希望网络以相应的速率传输 commitment)提供的Qos控制能力。在网络内部,应该有监控系统实时观
这些业务量。另外,不同的应用对网络传输的延时和延时抖动的敏感程 察网络运行情况(如网络负荷、抖动、丢包率及延时等),并将Qos参
度不一样,有的应用能容忍少量的业务量流失,有的应用则要求可靠传 数动态反馈给Qos监控系统,以实现Qos动态管理。
输。因此应在IP网络上导) ̄QOS技术,以确保实时业务的通信质量,使 3软交换网络中基于QoS的计费
网上资源获得最佳利用,降低成本,改善对用户的服务。 软交换网络除了提供传统的语音业务外,还提供数据、视频及以此
软交换服务质量(QOS)是指用户要求软交换网络传输系统所必须 为基础的各种增值业务。软交换业务的多样性对其专业计费系统提出了
保证的关于信息传输质量的特征集,它反映服务提供者(系统)和服务 更高的要求。软交换专业计费系统不仅需要提供灵活的资费策略,还需
使用者(用户)之间的能力和需求关系,是用来描述网络性能的。 支持按时长、流量、QoS等的计费能力。
2软交换网络中的QoS管理机制 软交换网络中基于QoS的计费,目前有两条思路:一条思路是通过
随着网上实时业务量的不断增长,IP 4本身的缺点变得日益明显起 从配置系统中采集用户所申请业务的Qos注册信息,作为其Qos计费依
来,其中最为突出的是IPv4对于实时性要求颇高的数据包(如视频、音 据;另外一条思路是根据用户在使用业务过程中,其设备与软交换网络
频数据包)和一般性的数据包(如文件传送、电子邮件等数据包)的处 协商并获准相应级别的Q0s服务后,在cDR中对Qos的标识(某些厂商的
理并不加以区分。这种等同对待的处理方式所导致的后果不仅仅是使通 网络设备未提供Qos相关数据),计费系统通过cDR的采集来获知用户
道阻塞,还使数据丢失,出现较大的延时以及抖动,这是实时多媒体业 本次呼叫的QoS信息,并据此形成QoS的计费依据。在计费系统中,按照
务所无法接受的。Qos能够在一定程度上解决这个难题。QoS能够对数据 QoS的级别不同(端到端电话业务的Qos等级、端到端多媒体业务I ̄QoS
包进行合理排队,对含有内容标识的数据包进行优化,并对其中特定的 等级、保证数据业务等级、尽力而为数据业务等级等),设置不同的费
数据包赋予较高的优先级,从而加速传输的进程,并实现实时交互。有 率,作为计费的重要参数之一(其它参数包括时长、流量等)。
QoS¥3L制的IP/[<仅在可预测、可测量性方面比传统无O0see制的IP有了很 如果在软交换网络中实 ̄T'QoS的计费,软交换设备最好能够在
大提高,而且还带来了更高效的带宽利用率等。 cDR中提供可量化的QoS指标,包括包丢失率、延时、延时抖动、阻塞
Q。s机制是包括Qos参数定义、Q。s参数映射、Q。s管理和维护、QoS 率、吞【吐量等。
协商、Q。s监控等一系列机制的综合,它贯穿j'ISO/OSI ̄:定义的七层 如果软交换设备能够在其cDR中提供上述参数,那么以此为基础制
模型的应用层至物理层,能够在应用交付给网络系统之时开始,对每 定费率标准和资费策略,就可方便地进行计费处理。
层都能把握和保证达到网络系统预先指定的Q。s级别、参数等,使网 目前,软交换设备尚不能在其CDRt ̄提供这些参数,因此,在以此
络系统在高效、平稳的良陛环境下运行,而Q0S参数定义是其重要组成 为基础的软交换网络中,要实现基于Q0s的计费,就必须到各网关、网
部分。因传输层介于应用层和实际资源处理之间,一般选择传输层O。s 守、路由器或Qos服务器等设备中采集,采集方案将视具体的网络方案
参数加以定义,好的传输层Q。s参数定义能够一方面体现应用的不同需 而确定采集方向和实现方式等。采集方向可以是主动到网络设备查询信
求,另一方面充分利用网络资源,是定义完整O0s参数的基础和关键。 息,或网络设备将信息推送到计费系统;实现方式可以是普通的几唠
服务质量用一系列说明多媒体系统性能目标的参数元组来确定,包 式或CORBA中I 牛方式。
括速度比率、利用率、平均延迟时间、最大延时、最大抖动(时滞)、 从用户的角度看,Qos可被映射为不同的服务等级(SLA)。因此,
误码率(BER)和分组错误率(PER)等。 如果软交换设备能够根据用户(或应用)的Qos请求等级,将其转化为
速度比率反映某段时间内正常接收到的分组数与实际发送的分组数 网络设备的Qos控制参数从而实现Qos保障,那么用户的Qos请求等级参
的比值,当比值小于1时出现延时;利用率反映某时间内实际到达分组 数也可以作为计费参数使用,以实现基于Qos的计费。
一
4小结 数与其中应正常到达分组数的比值,当比值小于1时则可能丢失部分分
服务质量是软交换部署所必须考虑的因素之一,它直接受着lP技术 组;时滞反映了在某段时间内分组的平均延时,若不为0就存在延时,
的发展的制约,随着iPv6 ̄术的出现,QoS将逐渐得到改善。IPv6对服 速度比率和时滞都反映平均延时,前者强调某段时间内发送或接收的平
务质量的支持主要反映在IPv6的包头中定义的两个重要参数:业务类别 均分组数,而后者则强调这段时间内分组非同步所造成的延时;BER和
(tra ̄c class)域和数据流标志(flowlabe1),前者用于支持DiSServ ̄型 PER表示通信服务的可靠性,它们存在于不同层次,如每比特、每一帧
的服务质量,后者主要用于支持IntServ模型的服务质量。IPv6和IPv4在 或每—个通道、每一连接等。
DiftServ的实现机制上基本一致,但IPv6对队列的排队方式、带宽分配以 在可运营的软交换电信网络中,Q0S机制应具有如下功能:
及拥塞处理进行了更加合理的规划。我们深信,随着软交换中服务质量 1)QoS的管理应当是可配置的,允许用户对系统的QoS管理功能
相关的问题得到解决,软交换网络将成为下一代网络的核心之一。 进行适当裁剪,以便建立与应用相适应的QoS级别。2)QoS管理应当
2003.9:167—169.
(上接第31页)
AIS的反垃圾邮件技术而言,仍然还有很多值得探索和改进的地方,毕
[2】李涛.计算机免疫学[MI.电子工业出版社,2008
竟AIS的仿生机理是很复杂的,我们要能融会贯通灵活运用还需要时
日,加之现有方案中,对于一些关键值,关键算法的测试也还不够完
备,如此种种,这都将是我们今后继续研究的内容。
参考文献
【11蔡立军,施荣华.一种新的电子邮件过滤系统模型的设计….计算机工程,
作者简介
赵卓(1977一),男,汉族,江苏武进人,长沙市质量技术监督信息管
理所工程师,工学硕士。
本文发布于:2023-11-18 16:02:45,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1700294565219047.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:基于内容的反垃圾邮件技术比较分析.doc
本文 PDF 下载地址:基于内容的反垃圾邮件技术比较分析.pdf
留言与评论(共有 0 条评论) |