-
公开(公告)号:CN108804626B
公开(公告)日:2019-11-22
申请号:CN201810551311.5
申请日:2018-05-31
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于分布感知的二元等值连接倾斜优化方法,包括:使用两个MapReduce任务对准备进行二元连接操作的两个数据集合R和S分别进行采样,以获得两个样本集合,分别计算样本集合中倾斜键的权重和大小,将二者进行比较,选择比较结果中较大的一个所对应的数据集合作为主表,另一个所对应的数据集合作为副表;获取选定的主表和副表中各个簇的代价估计值,根据该代价估计值确定大簇集合和小簇集合,并为大簇集合和小簇集合分别生成RDD分区方案,使用大簇集合和小簇集合的RDD分区方案对主表和副表进行分区,根据对主表和副表进行分区的结果在Reduce端完成分区内的连接操作。本发明能够解决现有二元连接方法中存在的Reduce端容易发生负载倾斜的技术问题。
-
公开(公告)号:CN107392642A
公开(公告)日:2017-11-24
申请号:CN201710446922.9
申请日:2017-06-14
Applicant: 华中科技大学
CPC classification number: G06Q30/0201 , G06F17/30303 , G06F17/30539
Abstract: 本发明公开了一种基于0-1整数规划与假设检验的商品选择方法,商品选择指根据历史交易数据,将过往销售的商品按照利润相关的某种指标进行优先级排名,并获取指定数量的最有价值商品的过程。根据输入的历史数据,通过采用假设检验的方法,可以得到一批互相间具有相关关系的商品组合,进而求得所有商品的利润分布权重,这是本发明的第一个输出结果。接下来在将商品选择问题看作一个最优化问题的前提下,利用该权重求解0-1整数规划可以输出指定数量的最有价值的商品,这是第二个输出结果。本发明能够根据历史交易数据,提取商品的自身销售利润与协同销售利润权重,为商品价值的挖掘分析提供了一种解决思路,同时为商品选择提供了一种全新的解决方案。
-
公开(公告)号:CN109166069B
公开(公告)日:2020-09-08
申请号:CN201810785245.8
申请日:2018-07-17
Applicant: 华中科技大学 , 武汉数为科技有限公司
IPC: G06F17/10
Abstract: 本发明公开了一种基于马尔科夫逻辑网络的数据关联方法、系统及设备,包括:利用重点人员数据库、待破案件及其对应的带权规则库构建基于马尔科夫逻辑网络的犯案概率获取模型,得到每一个重点人员犯待破案件的概率,从而筛选出目标对象,进而实现目标对象与待破案件之间的数据关联;带权规则库的获取方法包括:利用与待破案件主类型相同的已破案件数据构建本体模型视图集合,并分别提取一阶逻辑规则集合和谓词原子集合,然后利用所提取的两个集合构建基于马尔科夫逻辑网络的规则权重学习模型,并训练模型从而得到规则权重,由此得到由一阶逻辑规则和对应的规则权重构成的带权规则库。本发明中规则的获取不依赖于人力,能提高数据关联的准确率。
-
公开(公告)号:CN110245095A
公开(公告)日:2019-09-17
申请号:CN201910534260.X
申请日:2019-06-20
Applicant: 华中科技大学
IPC: G06F12/0866 , G06F3/06
Abstract: 本发明公开了一种基于数据块图谱的固态盘缓存优化方法,属于计算机数据存储系统中缓存系统技术领域,本发明所述固态盘缓存优化方法包括数据处理模块,数据块图谱构建模块,数据块关联强度分析模块,数据块重要度分析模块和数据块缓存准入模块。本发明针对传统的缓存算法对访问概率低或者周期性的备份数据仍然进入缓存并替换的问题,首次将图谱应用到缓存领域,提出了基于数据块图谱分析的缓存优化方法。该方法具有较高的缓存空间利用率,可以保证在不降低缓存命中率的情况下,大大减少固态盘的写流量,能够解决传统缓存算法造成的不必要固态盘的写入问题。
-
公开(公告)号:CN109166069A
公开(公告)日:2019-01-08
申请号:CN201810785245.8
申请日:2018-07-17
Applicant: 华中科技大学 , 武汉数为科技有限公司
Abstract: 本发明公开了一种基于马尔科夫逻辑网络的数据关联方法、系统及设备,包括:利用重点人员数据库、待破案件及其对应的带权规则库构建基于马尔科夫逻辑网络的犯案概率获取模型,得到每一个重点人员犯待破案件的概率,从而筛选出目标对象,进而实现目标对象与待破案件之间的数据关联;带权规则库的获取方法包括:利用与待破案件主类型相同的已破案件数据构建本体模型视图集合,并分别提取一阶逻辑规则集合和谓词原子集合,然后利用所提取的两个集合构建基于马尔科夫逻辑网络的规则权重学习模型,并训练模型从而得到规则权重,由此得到由一阶逻辑规则和对应的规则权重构成的带权规则库。本发明中规则的获取不依赖于人力,能提高数据关联的准确率。
-
公开(公告)号:CN108804626A
公开(公告)日:2018-11-13
申请号:CN201810551311.5
申请日:2018-05-31
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于分布感知的二元等值连接倾斜优化方法,包括:使用两个MapReduce任务对准备进行二元连接操作的两个数据集合R和S分别进行采样,以获得两个样本集合,分别计算样本集合中倾斜键的权重和大小,将二者进行比较,选择比较结果中较大的一个所对应的数据集合作为主表,另一个所对应的数据集合作为副表;获取选定的主表和副表中各个簇的代价估计值,根据该代价估计值确定大簇集合和小簇集合,并为大簇集合和小簇集合分别生成RDD分区方案,使用大簇集合和小簇集合的RDD分区方案对主表和副表进行分区,根据对主表和副表进行分区的结果在Reduce端完成分区内的连接操作。本发明能够解决现有二元连接方法中存在的Reduce端容易发生负载倾斜的技术问题。
-
-
-
-
-