-
公开(公告)号:CN112765469B
公开(公告)日:2023-10-27
申请号:CN202110096836.6
申请日:2021-01-25
Applicant: 东北大学
IPC: G06F16/9535 , G06F16/957 , G06F16/901
Abstract: 本发明提供一种从Web点击流数据中挖掘代表序列模式的方法,涉及序列模式挖掘技术领域。该方法首先输入Web点击流序列数据集、最小支持度和最大覆盖度,并遍历一次数据集保留不小于最小支持度的所有频繁站点作为序列生成种子;对每一个序列生成种子采用缝隙扩展枚举树,结合缝隙扫描剪枝策略和闭合检查得到该种子的所有频繁闭合超序列;进一步采用局部代表序列筛选技术选出该种子的所有代表序列;遍历所有序列生成种子,输出每个种子的代表序列,得到Web点击流数据的所有代表序列模式。优点是:代表序列模式能有效解决频繁序列模式数量庞大而可用性低的矛盾,能增强结果的可用性;为Web点击流的在线用户行为分析、信息推荐、引擎优化等应用提供参考。
-
公开(公告)号:CN112765469A
公开(公告)日:2021-05-07
申请号:CN202110096836.6
申请日:2021-01-25
Applicant: 东北大学
IPC: G06F16/9535 , G06F16/957 , G06F16/901
Abstract: 本发明提供一种从Web点击流数据中挖掘代表序列模式的方法,涉及序列模式挖掘技术领域。该方法首先输入Web点击流序列数据集、最小支持度和最大覆盖度,并遍历一次数据集保留不小于最小支持度的所有频繁站点作为序列生成种子;对每一个序列生成种子采用缝隙扩展枚举树,结合缝隙扫描剪枝策略和闭合检查得到该种子的所有频繁闭合超序列;进一步采用局部代表序列筛选技术选出该种子的所有代表序列;遍历所有序列生成种子,输出每个种子的代表序列,得到Web点击流数据的所有代表序列模式。优点是:代表序列模式能有效解决频繁序列模式数量庞大而可用性低的矛盾,能增强结果的可用性;为Web点击流的在线用户行为分析、信息推荐、引擎优化等应用提供参考。
-