-
公开(公告)号:CN113836897A
公开(公告)日:2021-12-24
申请号:CN202111108385.X
申请日:2021-09-22
Applicant: 北京计算机技术及应用研究所
IPC: G06F40/216 , G06F40/242 , G06F40/289 , G06F40/194 , G06F16/36 , G06F16/338 , G06F16/33
Abstract: 本发明涉及一种多源异构数据字典对齐的方法,属于大数据领域。本发明包括选择源数据库,选择源表,选择作为标准的源字段;选择目标数据库,选择目标表,选择需要对齐的目标字段;选择源表中的数据值;直接选择目数据表中的数据值或者通过算法智能筛选出目标表中的数据值,算法包括但不限于:余弦相似度匹配、编辑距离匹配、经纬度距离匹配、分类编码匹配、时间日期匹配;如果需要将目标表中的数据值扩充到源表中,开启扩充,将该数据值扩充到源表中;匹配成功查看匹配结果。本发明操作简单,匹配的结果也是一目了然,数据字典对齐后也让具体数据值的展现为统一的数据值。
-
公开(公告)号:CN116932685A
公开(公告)日:2023-10-24
申请号:CN202310911137.1
申请日:2023-07-24
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/31 , G06F16/2457 , G06F18/22 , G06F18/23 , G06F16/36
Abstract: 本发明涉及一种基于规则算法抽取和实体消歧算法构建实体画像的方法,属于数据融合处理领域。本发明通过规则算法将非结构化数据涉及到的实体、实体与实体之间的关系、属性的信息抽取到结构化数据库中。本发明采用实体消歧算法解决信息重复或者歧义的信息,对于实体重复信息,通过构建实体画像,建立多维度的特征模型的方法建立一套标准的实体数据。本发明通过实体画像建模将各类实体表间的字段关联匹配、信息融合,从多维度、多特征构建成实体画像模型,助于用户快速、高效、直观了解实体的多维特征,更好的理解实体数据含义。
-