-
公开(公告)号:CN117633122A
公开(公告)日:2024-03-01
申请号:CN202311646335.6
申请日:2023-12-04
Applicant: 浙江大学
Abstract: 本发明公开了一种代表性函数依赖的发现方法,包括如下步骤:获取原始数据集,基于所述原始数据集中的每个属性构建属性幂集格的单个属性生成分区集并为所述属性幂集格中的每个节点生成Rhs+集;对所述属性幂集格进行层级由下至上的遍历,在当前层遍历结束后对当前层节点进行剪枝,基于剪枝后节点的超集节点生成上一层的节点,直至当前层的剪枝后节点不存在超集节点,其中,在遍历过程中进行每个节点所对应的候选函数依赖的代表性判断和验证,所述剪枝基于当前层节点的Rhs+集和分区集进行。在大大提高函数依赖发现效率、缩小结果集规模的同时,保证了结果的准确性和代表性,效果优于现有方法,且具有通用性强、使用简便等优点。
-
公开(公告)号:CN116701351A
公开(公告)日:2023-09-05
申请号:CN202310599347.1
申请日:2023-05-25
Applicant: 浙江大学杭州国际科创中心 , 杭州城市大脑有限公司
IPC: G06F16/21 , G06F16/28 , G06F16/22 , G06F16/2457
Abstract: 本发明公开了一种适用于大数据的函数依赖近似发现方法,包括:依据属性对原数据集中元组进行聚类分区,并以分区中簇序号来替换原数据集中所有属性值,得到新数据集;以聚类簇为单元为新数据集创建优先级队列,对优先级队列中元组对进行采样,通过比较元组对在属性值的差异来生成非函数依赖,并添加到非函数依赖集合中,以集合的增长率为判断标准来控制采样过程的终止;对非函数依赖集合中进行结构化精简;利用非函数依赖集合验证当前后续函数依赖集合的合法性,删去不成立的函数依赖,并在函数依赖的左部添加新的属性能够得到新候选函数依赖,重新添加到函数依赖结果集中,以结果集的增长率为判断标准来控制流程的走向。该方法计算开销小。
-