-
公开(公告)号:CN112801793B
公开(公告)日:2022-04-15
申请号:CN202110132598.X
申请日:2021-01-31
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明属于海量数据挖掘与处理技术领域,涉及电商交易数据中高利润商品的挖掘方法。一种用于挖掘电商交易数据中高利润商品的方法,包括:根据每个商品的前缀不同,将每次交易记录中首个商品作为前缀项,将交易记录中具有相同前缀项的的商品集分在同一个分区里;所述商品集为一项式商品集或二项式商品集;分别计算每个分区的twu值,twu记录了该分区的最大利润效用值,将每个分区的twu值,与用户设定的利润阈值minU比较:a.若twu<minU,则跳过该分区,进入下一个分区;b.若twu≥minU,则计算该分区内每个商品集在整个分区中的利润效用值UIPa[i].twu,并将所有UIPa[i].twu降序排序,从大到小依次与利润阈值minU比较,找到大于等于利润阈值minU的商品集。本发明的方法,性能更优,效率更高。
-
公开(公告)号:CN108959425B
公开(公告)日:2021-08-06
申请号:CN201810592946.X
申请日:2018-06-11
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2455 , G06F16/2458
Abstract: 本发明提供一种海量数据Top‑k选择查询方法,有效地处理大数据上的top‑k选择查询,提出了基于表扫描的TKS算法,该算法通过对预排序表PT的顺序扫描来计算top‑k选择查询结果。本发明具有早结束特性;在连续扫描预排序表的过程中,只需要维护k个候选结果;并且选择剪切和分数剪切可以有效的减少I/O的代价,选择剪切是利用位图编码去掉不满足选择条件的元组,而分数剪切是利用评分函数的单调性和预排序列表的有序性跳过那些不满足分数要求的元组。
-
公开(公告)号:CN110222090A
公开(公告)日:2019-09-10
申请号:CN201910477465.9
申请日:2019-06-03
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/2458
Abstract: 本发明提供一种海量数据频繁项集挖掘方法,包括:采用频繁项集挖掘算法对原始事务数据集TO进行挖掘,获得原始事务数据集TO对应的所有的局部频繁项集;扫描原始事务数据集TO,对应计算上述所获得的每个局部频繁项集在原始事务数据集TO上的支持度计数,对所获得的局部频繁项集进行过滤,获取支持度不小于ω的各局部频繁项集,并将所获取的各局部频繁项集及计算所得的对应的支持度计数对应写入文件Fqf中;读取新增事务数据集TΔ,并判断新增事务数据集TΔ是否为空,之后基于新增事务数据集TΔ是否为空进行频繁项集挖掘。本发明在整个挖掘过程中复用了文件Fqf、集合STCAD和数组cntΔ,一定程度上减少了计算开销,从而可提高频繁项集的挖掘速率。
-
公开(公告)号:CN108959425A
公开(公告)日:2018-12-07
申请号:CN201810592946.X
申请日:2018-06-11
Applicant: 哈尔滨工业大学(威海)
IPC: G06F17/30
Abstract: 本发明提供一种海量数据Top‑k选择查询方法,有效地处理大数据上的top‑k选择查询,提出了基于表扫描的TKS算法,该算法通过对预排序表PT的顺序扫描来计算top‑k选择查询结果。本发明具有早结束特性;在连续扫描预排序表的过程中,只需要维护k个候选结果;并且选择剪切和分数剪切可以有效的减少I/O的代价,选择剪切是利用位图编码去掉不满足选择条件的元组,而分数剪切是利用评分函数的单调性和预排序列表的有序性跳过那些不满足分数要求的元组。
-
公开(公告)号:CN106330558A
公开(公告)日:2017-01-11
申请号:CN201610779299.4
申请日:2016-08-31
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明公开了一种应用于软件定义网络的控制器负载预测系统,包括:数据采集单元、模型建立单元及负载预测单元。其中,数据采集单元采集软件定义网络SDN中控制器的运行数据,运行数据包括历史数据与实时数据;模型建立单元从历史数据中提取特征数据构建训练集,对训练集进行训练建立预测模型;负载预测单元通过预测模型对实时数据进行计算,预测控制器在预设时间间隔之后的负载值。本发明能够在控制器出现过载导致整体处理性能下降之前,对控制器的负载情形进行预测,进而对控制平面进行负载动态调整,从而使多控制器间的负载更为均衡,资源利用率大大提高。
-
-
-
-