相关系数和卡方检验的正负关联规则挖掘算法

更新时间:2023-07-08 15:24:46 阅读: 评论:0

相关系数和卡方检验的正负关联规则挖掘算法
胡志冬
【摘 要】随着经济全球化和信息技术的发展,为了给企业发展提供更多的信息支持和决策帮助,数据中心纷纷建立起来,其作用是通过分析海量数据来为企业的政策趋向和战略选择提供意见佐证.但是,要想在庞大的数据海洋中获取数据间的相关性依赖并非易事,而且,传统的关联规则算法通常并不完善,产生的规则通常会包含一些没有意义甚至错误的规则,即所谓的弱规则与负规则.针对这种现状,提出一种度量正负关联规则的检验方法,并引入赋予不同权重值给不同数据库的方式,提高在水平多数据库中挖掘正负关联规则的效率.
【期刊名称】《微型机与应用》
【年(卷),期】2013(032)016
【总页数】4页(P64-67)
【关键词】数据挖掘;正负关联规则;多数据库
彩电排行榜前十名
【作 者】胡志冬
【作者单位】辽宁师范大学计算机与信息技术学院,辽宁大连116029
【正文语种】中 文
【中图分类】TP311
跳绳瘦腿吗数据挖掘(Data Mining)是从数据准备到知识评价的一个流程体系,在海量的数据中获取感兴趣的信息。关联规则的挖掘是数据挖掘研究的重要方向之一,通过数据间隐含的依赖性关系生成知识。目前多数工作的重心都放在了A⇒B的正关联规则研究上,而对于形如A⇒┐B、┐A⇒B、┐A⇒┐B(一般此类规则作用较小)的负规则研究很少,但负关联规则同样包含着巨大的信息量,对企业的战略决策选择同样起着至关重要的作用。
1 相关工作
1.1 概念与定义
在支持度-置信度的框架下,关联规则中只有同时满足支持度与置信度的规则才是强规则,
即具有良好预测性的规则。从概率的角度重新定义支持度和置信度为:
定义1支持度是指数据库中同时包含A和B的概率。也就是说,如果在数据库D中包含A又包含B的事务集占总事务集的n%,则规则A⇒B的支持度为n。
描写战争的诗定义2置信度是A成立的条件下B也为真的条件概率,也就是说,如果数据库D中包含A又包含B的事务集占只包含A的事务集的m%,则规则A⇒B的置信度为m。
1.2 经典算法
Apriori原理(或称为向下封闭属性)用来高效地产生所有频繁项目集,通过项目集元素不断增长来逐步完成频繁项目集发现。Apriori算法分两步进行:(1)通过比对支持度生成所有频繁项目集:将支持度高于minsup的项集组合成一个频繁项目集。(2)通过比对置信度生成所有可信关联规则:置信度大于minconf的规则视为一个可信关联规则(Confident Association Rule)。例如,设有1 000条交易记录,分别是购买 A和 B、只购买 A、只购买B、两者都不买,如表1所示。假定给定最小支持度minsup=0.3,最小置信度 minconf=0.6。
表1 交易记录B A┐A列总计400 350 750┐B 200 50 250行总计600 400 1 000
鸡心的做法sup(A⇒B)=0.4,conf(A⇒B)≈0.66>minconf,则认为A⇒B是有效的,购买A和购买B之间存在关系。
2 负关联规则
参考正关联规则的支持度和置信度的定义,负关联规则的支持度和置信度可以做如下定义:
supp(┐A)=1-supp(A)
祖狄闻鸡起舞
supp(A∪┐B)=supp(A)-supp(A∪B)
supp(┐A∪B)=supp(B)-supp(A∪B)
supp(┐A∪B)=1-supp(A)-supp(B)+supp(A∪B)
置信度的表达如下:
2.1 负关联规则的研究现状
不同于传统的关联规则,负关联规则的研究对象是项目与项目之间的互斥关系,例如当某些事件发生时,会影响甚至抑制另外一些事件的发生。当决策者想要了解 “客户在购买产品A之后会不会对其买产品B产生影响”之类的问题时,负关联规则具有很大的信息参考价值。
在负关联规则的研究领域,针对项目间的正负相关性,许多专家学者提出了很多有建设性的算法。Piatetsky-Shapiro提出了 P-S兴趣度,interest=sup(A⇒B)-sup(A)sup(B);杨建林[1]综合考虑了规则准确度、规则相关度、用户主观偏好及兴趣度后,对其进行了改进;BRIN S[2]首次提出通过A⇒B的χ2值来确定A和B是否相互独立,如果它们相互独立,则两者的存在对对方都没有影响;反之,调用二阶矩阵来计算它们之间的正负相关性;董祥军[3]提出一种 PNARC(Positive and Negative Association Rules on Correlation)模型,该模型采用相关性检验方法,利用支持度—置信度框架,不仅能同时挖掘数据库中的正负关联规则,而且能检测出相悖的规则;Dong Xiangjun[4]提出一种 PNARMC算法,该方法将 χ2检验和多置信度相结合,使得改进的算法不但能够准确挖掘出频繁项集中的正、负关联
规则,还能通过设定相关参数来调节生成的关联规则的数量。以上方法都能生成正负规则,并在一定范围内削弱无用规则,但产生的规则仍有一定的误导性,不能准确地度量项目相关性程度。
2.2 相关系数
为了判断所挖掘的关联规则的类型,引入相关系数(corrA,B)[5]这一概念,通过比较 conf(A⇒B)与 sup(B)来度量A与B的相关性:
其取值范围若为(1,+∞)则 A、B正相关;若为 1则 A、B相互独立;若为[0,1)则 A、B负相关。
上个例子中所以 A和B是负相关,A出现得越多会导致B出现得越少。
然而,不是所有的事情都是如此的清晰明确,例如若 P(AB)与 P(A)和 P(B)很相近,那么 A与 B是独立还是关联以什么标准来衡量呢?此时corrA,B也不能很好地反映相关程度,比如有两组数据,第一组P(AB)=0.7,P(A)=0.7,P(B)=0.7;第二组 P(AB)=0.9,P(A)=0.9,P(B)=0.9,它们的corrA,B值是不相同的,但事实上两组数据都完全相关。黄胄
所以进一步指出二态变量AB的相关系数ρAB[6]为:
律动音乐其中,如果 ρAB>0,则 ρ┐AB<0;ρA┐B<0;ρ┐A┐B>0。 反之则相反。
相关系数的取值范围代表的含义分别是:
(1)如果ρAB>0,A的出现将对 B的出现起推动作用,反之亦然,称做A、B正相关;
(2)如果 ρAB=0,A的出现与 B的出现之间没有任何联系,称做A、B相互独立;
(3)如果 ρAB<0,则 A与 B负相关,A的出现将对 B的出现起抑制作用,反之亦然。
为了避免相悖规则的出现,在关联规则挖掘前可以计算项集的相关系数,评判其正负,即如果 ρAB>0,则形如A⇒B和┐A⇒┐B的规则将是可靠的;如果ρAB<0,则形如A⇒┐B、┐A⇒B的规则将是可靠的。其中|ρAB|越大意味着相关程度越强。
3 相关系数与卡方检验
卡方检验是每个数据实际频数A与理论频数T差值平方与理论频数之比的累计和,其统计量是卡方值。
为了阐述方便,给出了A、B的级联表,如表2所示。 ni,j表 示 (i,j)发生的频数。
表2 A、B列级表b b 合计a a 合计nab nab nb nab nab nb nanan

本文发布于:2023-07-08 15:24:46,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1085718.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:规则   关联   支持   置信度   正负   项目   数据   算法
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图