-
公开(公告)号:CN106980682A
公开(公告)日:2017-07-25
申请号:CN201710204048.8
申请日:2017-03-30
Applicant: 福建师范大学
IPC: G06F17/30
CPC classification number: G06F16/2462
Abstract: 本发明涉及一种基于大数据生成器的非时间属性关联模型的建模方法,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对;然后计算各关系对的MIC值来评估各关系对的相关性,并采用SE分布对各关系对进行关系拟合;通过拟合的关系得到评价主体的属性特征与其数据规模的关系,以及被评价主体的属性特征与其数据规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联的H模型。该方法建立的模型可以有效地刻画真实数据集中的数据特征。
-
公开(公告)号:CN106202486B
公开(公告)日:2019-07-09
申请号:CN201610569447.X
申请日:2016-07-19
Applicant: 福建师范大学
IPC: G06F16/90
Abstract: 本发明涉及一种异构数据集基于MIC字段值优先连接方法,包括以下步骤:拟合异构数据集SE分布的参数;计算字段A、B之间的MIC系数;生成字段A、B中所有值分别出现次数构成的集合StA和StB;建立集合StA、StB对应的累积分布函数PA(x)、PB(y);判断记录总条数l是否为0,是则转最后一步,否则转下一步;根据PA(x)计算得出字段A中对应字段值Ax;基于字段值优先连接模型计算得出字段B中对应字段值By;保存{Ax,By}作为一条记录;更新总条数l=l‑1,并返回步骤5;完成异构数据的所有连接。该方法有利于逼真模拟异构数据集,使连接的数据集保持合理的字段间的均衡性以及节点间的相似性。
-
公开(公告)号:CN106940731A
公开(公告)日:2017-07-11
申请号:CN201710204049.2
申请日:2017-03-30
Applicant: 福建师范大学
IPC: G06F17/30
CPC classification number: G06F16/22
Abstract: 本发明涉及一种基于非时间属性关联的数据逼真生成方法,首先从数据集中提取评价主体和被评价主体的关键属性,进行两重频数统计,得到基于关键属性的4个关系对;然后计算各关系对的MIC值,并采用SE分布对各关系对进行关系拟合;接着通过拟合的关系得到评价主体的属性特征与其规模的关系,以及被评价主体的属性特征与其规模的关系,并将这两个属性特征通过活跃度总和等于流行度总和建立关联,得到非时间属性关联模型;最后,基于得到的非时间属性关联模型,通过模型参数构建约束,生成带约束的二维矩阵以及二维矩阵填充方式,逼真生成数据集。该方法生成的数据能够有效地模拟真实数据集的数据特征。
-
公开(公告)号:CN106202486A
公开(公告)日:2016-12-07
申请号:CN201610569447.X
申请日:2016-07-19
Applicant: 福建师范大学
IPC: G06F17/30
CPC classification number: G06F16/90
Abstract: 本发明涉及一种异构数据集基于MIC字段值优先连接方法,包括以下步骤:拟合异构数据集SE分布的参数;计算字段A、B之间的MIC系数;生成字段A、B中所有值分别出现次数构成的集合StA和StB;建立集合StA、StB对应的累积分布函数PA(x)、PB(y);判断记录总条数l是否为0,是则转最后一步,否则转下一步;根据PA(x)计算得出字段A中对应字段值Ax;基于字段值优先连接模型计算得出字段B中对应字段值By;保存{Ax,By}作为一条记录;更新总条数l=l-1,并返回步骤5;完成异构数据的所有连接。该方法有利于逼真模拟异构数据集,使连接的数据集保持合理的字段间的均衡性以及节点间的相似性。
-
-
-