数据挖掘关联规则分析数据集(数据挖掘中关联分析就是挖掘什么)


关联规则按照不同的标准,能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集,是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则,以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束,是根据规则所挖掘的约束类型分类的。

数据挖掘关联规则分析数据集(数据挖掘中关联分析就是挖掘什么)

关联规则挖掘算法分析

1 Apriori 算法分析

关联规则算法中的挖掘完全频繁项集中,Apriori 算法该类型中最具有应用价值,影响力最大的算法。

Apriori 算法主要有两个步骤:

(1)发现所有的频繁集;

(2)生成强关联规则。

在 Apriori 算法中的第一步是最为重要的步骤,该算法的核心思路是,给定一个数据库,在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁 1—项集,也就是 L1,1—项集 C1,由 L1进行连接得到;接着进行第二次数据库扫描,将 C1中所有支持度大于等于最小支持度的项集组成频繁 2—项集,也就是 L2,候选 2—项集 C2由 L2连接得到。以此类推,直到找出最大项频繁集。即在进行第 N 次数据库扫描时,找出 CN-1中所有支持度大于等于最小支持度的项集组成频繁N—项集,即是 LN,N—项集 CN要由 LN连接得出,一直到找不出新的选集为止。在这里还要用到 Apriori 算法性质,即是频繁项集是频繁项集的子集,非频繁项集是非频繁项集的超集。在 Apriori 算法中对数据库的扫描次数需要大于最大频繁项集的项数。

Apriori 算法的操作具有两个明显的缺点:

(1)该算法的使用需要对数据库进行多次扫描,因此在读写操作上会花费很多的时间,从而增加挖掘算法的时间成本,这种成本的增加不可小觑,因为它是有数据库存储数据的增加,以几何级数上升的成本;

(2)Apriori 算法会出现众多的候选频繁集,频发集的产生量在每一步都很大,这会使算法在广泛度和深入度上的适应性较差。

2 FP—growth 算法分析

FP—growth 算法是关联规则算法中属于深度优化的一种算法,这种算法是深度优化算法中较新且具有较高成效的,不同于 Apriori算法本质的常用算法。FP?—growth 算法的基本基本步骤有两个:

(1)先将频繁模式树 FP—tree 生成;需要将项集关联信息保留住,并采用一棵频繁模式树(FP—tree)用来容纳压缩后的数据库;

(2)在生成的 FP—tree 频繁模式树中搜索频繁项集:再将压缩后的 FP—tree 再分散为几个小的条件数据库,再分别对这些数据库进行信息挖掘。。

FP—growth 算法相较于 Apriori 算法,只需要对数据库进行两次扫描,不需要多次扫描,大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集,大幅度减少了频繁集的搜索空间。也就是说 FP—growth 算法能明显提高时间和空间效率。但是该算法也有缺点,在对庞大且松散的数据库进行挖掘处理过程中,不管是递归计算还是信息挖掘都需要占据大量的空间。

两种算法都还存在各自需要改进缺点,怎样在挖掘过程中提高挖掘效率,满足人们对挖掘系统的需求,这将是数据研究工作者仍然需要突破的重难点。

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

(0)
上一篇 2021年10月18日 下午12:00
下一篇 2021年10月18日 下午12:01

猜你喜欢

发表评论

登录后才能评论
欢迎加入B2B工业制造行业垂直社群,扩人脉、解疑点、找订单!     点击加入