次数,|K|为K 中项的数目。最小支持度的取值会对特征挖掘的效率和精度产生影响。最 小支持阈值较小时,可挖掘到更多的特征,但这些特征之间的冗余更多,且总体识别率并没 140 有上升,算法的效率因挖掘过滤过多冗余特征而降低。根据[8],本文选择最小支持度 min sup( ') 0.02 mn I = 。 表1 流量数据FP-Tree 构造 输入:流量数据及最小支持度 min sup( ') mn I 输出: FP-tree, 流量数据频繁模式树 扫描数据库,建立频繁项集合F,统计各频繁项I ' 的支持度sup( ') mn I ,以sup( ') mn I 降序排列频繁项生成 FList 建立FP-Tree 的根节点T,T←null For( I ' in F) do{ 根据FList 对数据库数据排序。获得数据的频繁项列表 [ p | P],其中p 为首项,P 为剩余列表. Call insert tree([ p | P], T ) Processure insert tree([ p | P], T){ if( T 有子节点 N && N.item-name = p.item-name){ N.count++ }else{ Create new node N N.count = 1 N.parent->T } if(P != null) call insert tree(P,N) } } 通过FP-Tree 构造算法,我们可以获得流量数据的FP-Tree,图2 给出了处理事务数据 160 库建立的FP-Tree 的一部分。 图2 FP-Tree 局部 FP-Growth 的算法如表2 所示,在FP-Tree 的基础上我们实现了对流量数据频繁关联项 165 即流量特征的挖掘。 表2 流量特征FP-Growth 算法描述 输入: 以FP-tree 为结构的数据库, min sup( ') mn I 输出: 流量数据的完整频繁集 if Tree 包含单一前缀路径 { P 学术论文网Tag:代写论文 代写代发论文 代发论文 职称论文发表 |