博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Apriori算法
阅读量:5151 次
发布时间:2019-06-13

本文共 1299 字,大约阅读时间需要 4 分钟。

项的集合称为
项集。包含k个项的项集称为k-项集。集合{computer,ativirus_software}是一个二项集。项集的出项频率是包含项集的事务数,简称为项集的
频率
支持度计数
计数。注意,定义项集的支持度有时称为
相对支持度,而出现的频率称为
绝对支持度
如果项集
I的相对支持度满足预定义的
最小支持度阈值,则
I
频繁项集
 
满足预定义的最小支持度的项集,称为频繁项集
 
转 

 感谢红兰整理的PPT,简单易懂,现在将其中精彩之处整理,与大家分享。

一、Apriori算法简介:  Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。

二、挖掘步骤:

1.依据支持度找出所有频繁项集(频度)

2.依据置信度产生关联规则(强度)

三、基本概念

对于A->B

①支持度:P(A ∩ B),既有A又有B的概率

②置信度:

P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A)     例如购物篮分析:牛奶 ⇒ 面包

例子:[支持度:3%,置信度:40%]

支持度3%:意味着3%顾客同时购买牛奶和面包

置信度40%:意味着购买牛奶的顾客40%也购买面包

③如果事件A中包含k个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。

④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则

四、实现步骤

    Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法Apriori使用一种称作逐层搜索的迭代方法,“K-1项集”用于搜索“K项集”。

首先,找出频繁“1项集”的集合,该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“K项集”。找每个Lk都需要一次数据库扫描。

核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某

个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。

简单的讲,1、发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集   重复步骤(1)~(5)直到不能发现更大的频集

2、产生关联规则,过程为:根据前面提到的置信度的定义,关联规则的产生如下:

(1)对于每个频繁项集L,产生L的所有非空子集;

(2)对于L的每个非空子集S,如果

                P(L)/P(S)≧min_conf

则输出规则“SàL-S”

注:L-S表示在项集L中除去S子集的项集

 

 

 

 

转载于:https://www.cnblogs.com/ukouryou/articles/3985516.html

你可能感兴趣的文章
Android学习之——优化篇(2)
查看>>
好的开源库总结
查看>>
Winform的Bitmap调色板的一个问题
查看>>
noframes,frame,iframe,frameset 区别
查看>>
Android统计绘图工具
查看>>
Isequal IsequalToString containsString hasPrefixd的区别
查看>>
【原】关于cuteftp连不上Linux虚拟机的问题
查看>>
大众点评cat系统的搭建笔记
查看>>
[svc]sort-uniq
查看>>
[svc]mysql备份恢复及常用命令
查看>>
mysql存储引擎之MyISAM 和 InnoDB的比较
查看>>
Mybatis学习总结(五)——动态sql
查看>>
文件读、写相关的常用方法
查看>>
C#时间问题
查看>>
使用JSONP 实现跨域通信
查看>>
服务端性能测试校准v1.2
查看>>
【JavaScript】离线应用与客户端存储
查看>>
2014.12.3 ---Thema:Node.js
查看>>
[转载]启示录:产品原则和产品评审团
查看>>
USACO Training3.3 A Game【区间Dp】 By cellur925
查看>>