-
公开(公告)号:CN104850658A
公开(公告)日:2015-08-19
申请号:CN201510305681.7
申请日:2015-06-04
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
CPC classification number: G06F17/30303 , G06F17/30595
Abstract: 本申请公开了一种数据填充方法,根据数据库中的已有数据确定所述数据库的空缺数据,并构建所述数据库中所有数据之间的数据依赖关系,重复执行以下步骤,直至所述数据库的空缺数据被填充完毕:根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断并填充所述可推断数据,从所述数据库的外部资源中检索并填充所述待检索数据。这样,通过推断和检索的交替执行,高效且高质量地实现数据集中空缺数据的填充,可以实现在较小的系统开销下获得较高的数据填充准确率。
-
公开(公告)号:CN104866625B
公开(公告)日:2018-08-17
申请号:CN201510329196.3
申请日:2015-06-15
Applicant: 苏州大学张家港工业技术研究院 , 苏州大学
IPC: G06F17/30
Abstract: 本申请提供了一种用于实体匹配的方法及系统,该方法包括:根据两个待处理实体的属性值分布分别确定各自的属性区分度;根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。该方法能够通过利用非主属性的值以及属性分布求得实体相似度,进而进行实体匹配,较好的识别出相同的实体,节约了时间提高了效率。
-
公开(公告)号:CN104881487A
公开(公告)日:2015-09-02
申请号:CN201510304863.2
申请日:2015-06-04
Applicant: 苏州大学张家港工业技术研究院
CPC classification number: G06F17/30303 , G06F17/243 , G06F17/30522
Abstract: 本申请公开了一种基于质量控制的数据填充方法,根据数据库中的已有数据确定空缺数据,构建数据库的数据依赖关系并确定数据依赖关系的依赖可信度,根据已有数据和数据依赖关系确定空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从至少一组不可推断数据中确定一组待检索数据,根据已有数据和数据依赖关系推断可推断数据并根据依赖可信度计算推断可信度,推断可信度大于预设阈值时填充可推断数据,从外部资源中检索待检索数据并根据依赖可信度计算检索可信度,检索可信度大于预设阈值时填充待检索数据。推断和检索交替执行能在较小的开销下保证较高的填充准确率,且考虑了数据依赖关系的依赖可信度能够使填充的数据的可信度较高。
-
公开(公告)号:CN104881487B
公开(公告)日:2018-08-17
申请号:CN201510304863.2
申请日:2015-06-04
Applicant: 苏州大学张家港工业技术研究院 , 苏州大学
Abstract: 本申请公开了一种基于质量控制的数据填充方法,根据数据库中的已有数据确定空缺数据,构建数据库的数据依赖关系并确定数据依赖关系的依赖可信度,根据已有数据和数据依赖关系确定空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从至少一组不可推断数据中确定一组待检索数据,根据已有数据和数据依赖关系推断可推断数据并根据依赖可信度计算推断可信度,推断可信度大于预设阈值时填充可推断数据,从外部资源中检索待检索数据并根据依赖可信度计算检索可信度,检索可信度大于预设阈值时填充待检索数据。推断和检索交替执行能在较小的开销下保证较高的填充准确率,且考虑了数据依赖关系的依赖可信度能够使填充的数据的可信度较高。
-
公开(公告)号:CN104850658B
公开(公告)日:2018-08-17
申请号:CN201510305681.7
申请日:2015-06-04
Applicant: 苏州大学张家港工业技术研究院 , 苏州大学
IPC: G06F17/30
Abstract: 本申请公开了一种数据填充方法,根据数据库中的已有数据确定所述数据库的空缺数据,并构建所述数据库中所有数据之间的数据依赖关系,重复执行以下步骤,直至所述数据库的空缺数据被填充完毕:根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断并填充所述可推断数据,从所述数据库的外部资源中检索并填充所述待检索数据。这样,通过推断和检索的交替执行,高效且高质量地实现数据集中空缺数据的填充,可以实现在较小的系统开销下获得较高的数据填充准确率。
-
公开(公告)号:CN105045863A
公开(公告)日:2015-11-11
申请号:CN201510407893.6
申请日:2015-07-13
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
CPC classification number: G06F17/30675 , G06F17/30734
Abstract: 本申请提供了一种用于实体匹配的方法及系统,该方法包括:将待匹配实例对从预先训练的决策树的根节点对应的属性开始进行访问,获取所述待匹配实例对的各属性的属性相似度和置信度;利用所述属性相似度和所述置信度,结合调整系数计算并输出所述待匹配实例对的实体相似度;将所述实体相似度与预设实体相似度阈值进行对比,判断所述待匹配实例对的相似性;其中,所述决策树是利用由已知的匹配实体组成的实例对中共同的非主属性集合和/或主属性集合训练获得。该方法通过利用已知的实例对中两个实体共同的非主属性集合和/或主属性集合训练获得决策树,在进行实体匹配的过程中考虑了非主属性的作用,提高了实体匹配的准确率和召回率。
-
公开(公告)号:CN104991888A
公开(公告)日:2015-10-21
申请号:CN201510345955.5
申请日:2015-06-19
Applicant: 苏州大学张家港工业技术研究院
Abstract: 本发明公开了一种歧义消除方法,包括:获取预设数量个实例,从中获取正例,并确定与正例对应的反例,反例不属于上述实例;获取正例对应的正例文档及反例对应的反例文档的全部属性值;根据每个属性值在正例文档中的出现规律及该属性值在反例文档中的出现规律确定与预设数量个实例最为匹配的最优消歧属性值,利用最优消歧属性值更新正例文档和反例文档后,通过循环执行获取最优消歧属性值的步骤,获取全部最优消歧属性值,利用全部最优消歧属性值进行检索以获取实例中缺少的属性值,而不是仅仅利用实例中已提供的属性值进行检索,由此,能够有效消除检索所得结果的歧义性,更准确的获取预设数量个实例中所缺少的属性值。
-
公开(公告)号:CN105045863B
公开(公告)日:2018-09-28
申请号:CN201510407893.6
申请日:2015-07-13
Applicant: 苏州大学张家港工业技术研究院 , 苏州大学
IPC: G06F17/30
Abstract: 本申请提供了一种用于实体匹配的方法及系统,该方法包括:将待匹配实例对从预先训练的决策树的根节点对应的属性开始进行访问,获取所述待匹配实例对的各属性的属性相似度和置信度;利用所述属性相似度和所述置信度,结合调整系数计算并输出所述待匹配实例对的实体相似度;将所述实体相似度与预设实体相似度阈值进行对比,判断所述待匹配实例对的相似性;其中,所述决策树是利用由已知的匹配实体组成的实例对中共同的非主属性集合和/或主属性集合训练获得。该方法通过利用已知的实例对中两个实体共同的非主属性集合和/或主属性集合训练获得决策树,在进行实体匹配的过程中考虑了非主属性的作用,提高了实体匹配的准确率和召回率。
-
公开(公告)号:CN104866625A
公开(公告)日:2015-08-26
申请号:CN201510329196.3
申请日:2015-06-15
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本申请提供了一种用于实体匹配的方法及系统,该方法包括:根据两个待处理实体的属性值分布分别确定各自的属性区分度;根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。该方法能够通过利用非主属性的值以及属性分布求得实体相似度,进而进行实体匹配,较好的识别出相同的实体,节约了时间提高了效率。
-
-
-
-
-
-
-
-