-
公开(公告)号:CN106933901B
公开(公告)日:2020-07-17
申请号:CN201511032263.1
申请日:2015-12-31
Applicant: 北京大学
Abstract: 本发明提供的数据集成方法及系统,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。从而使本发明通过聚类使整个集成过程所需的计算量减小,提高集成效率,同时通过匹配算法,使整个数据集成的质量得到保证。
-
公开(公告)号:CN106933901A
公开(公告)日:2017-07-07
申请号:CN201511032263.1
申请日:2015-12-31
Applicant: 北京大学
IPC: G06F17/30
Abstract: 本发明提供的数据集成方法及系统,通过获取不同输入源中的每个输入源的第一数据;根据语义对所述每个输入源的第一数据进行聚类,得到每个输入源的第二数据,其中,在每个输入源的第一数据中,语义相近的元素将用相同的元素表示并被聚类;将每个输入源的第二数据中任意第一元素与其他输入源的第二数据中的各元素进行并行匹配计算,并获得所述第一元素与各元素的相似度熵;根据所述第一元素与各元素的相似度熵,确定符合预设条件的第二元素,采用目标元素对所述第一元素进行替换。从而使本发明通过聚类使整个集成过程所需的计算量减小,提高集成效率,同时通过匹配算法,使整个数据集成的质量得到保证。
-