-
公开(公告)号:CN113297213A
公开(公告)日:2021-08-24
申请号:CN202110475662.4
申请日:2021-04-29
Applicant: 军事科学院系统工程研究院网络信息研究所 , 电科云(北京)科技有限公司
Abstract: 本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。
-
公开(公告)号:CN113297213B
公开(公告)日:2023-09-12
申请号:CN202110475662.4
申请日:2021-04-29
Applicant: 军事科学院系统工程研究院网络信息研究所 , 电科云(北京)科技有限公司
IPC: G06F16/22 , G06F16/28 , G06F18/22 , G06F18/214
Abstract: 本发明属于计算机领域,特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记,利用字段标记进行相似性计算函数的选择,差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整,实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一,不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差,并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间,减少不必要的匹配过程,从而大幅度提高大规模数据场景下的实体对齐过程。
-
公开(公告)号:CN114528439B
公开(公告)日:2024-06-14
申请号:CN202011324463.5
申请日:2020-11-23
Applicant: 电科云(北京)科技有限公司
IPC: G06F16/901 , G06F16/9038 , G06F16/907
Abstract: 本发明提供一种基于分布式系统的极大团枚举方法和装置,所述方法包括:基于无向无权图中顶点的属性或位置进行重新编号,使得属性或位置相近的节点编号相邻;将重新编号后的顶点集合按照编号分为多个连续的块;将多个连续的块分别分配给多个节点,使得每个节点对应一个块;确定无向无权图中各顶点的ID值;在主副本所在的节点和对应镜像副本所在的节点间进行信息传递,以使得各节点基于传递的信息获得各主副本的第一邻居列表,第一邻居列表包括ID比主副本ID大的主副本的邻居的列表;各节点获得各个主副本顶点的邻接表,基于获得的邻接表信息利用搜索树进行极大团的枚举。本发明考虑到了顶点的局部性等信息,减少了信息传递,提高了搜索效率。
-
公开(公告)号:CN115049751A
公开(公告)日:2022-09-13
申请号:CN202110251541.1
申请日:2021-03-08
Applicant: 电科云(北京)科技有限公司
IPC: G06T11/00 , G06F16/901
Abstract: 本发明提供了一种图的团枚举方法、大图数据分析方法及装置,其中,该图的团枚举方法包括:对包含结点和边的设定图中的各结点进行着色,并使设定图中每个结点的颜色值与其邻居结点的颜色值不同;按颜色值对设定图中的各结点进行排序,并生成设定图的有向无环图;递归枚举所述有向无环图中的设定结点数量的团,并在递归枚举过程中根据结点的颜色值和从欲枚举团的设定结点数量递减的结点数量值确定无效搜索路径并剪枝无效搜索路径,得到所述有向无环图中的所有设定结点数量的团。通过上述方案能够对无意义的搜索路径进行剪枝,从而提高k‑团的枚举效率。
-
公开(公告)号:CN114528439A
公开(公告)日:2022-05-24
申请号:CN202011324463.5
申请日:2020-11-23
Applicant: 电科云(北京)科技有限公司
IPC: G06F16/901 , G06F16/9038 , G06F16/907
Abstract: 本发明提供一种基于分布式系统的极大团枚举方法和装置,所述方法包括:基于无向无权图中顶点的属性或位置进行重新编号,使得属性或位置相近的节点编号相邻;将重新编号后的顶点集合按照编号分为多个连续的块;将多个连续的块分别分配给多个节点,使得每个节点对应一个块;确定无向无权图中各顶点的ID值;在主副本所在的节点和对应镜像副本所在的节点间进行信息传递,以使得各节点基于传递的信息获得各主副本的第一邻居列表,第一邻居列表包括ID比主副本ID大的主副本的邻居的列表;各节点获得各个主副本顶点的邻接表,基于获得的邻接表信息利用搜索树进行极大团的枚举。本发明考虑到了顶点的局部性等信息,减少了信息传递,提高了搜索效率。
-
公开(公告)号:CN114490799A
公开(公告)日:2022-05-13
申请号:CN202011254159.8
申请日:2020-11-11
Applicant: 电科云(北京)科技有限公司
IPC: G06F16/2458
Abstract: 本发明提供了一种单个图的频繁子图挖掘方法及装置,其中,该方法包括:根据单个图的节点标签的字典排序结果生成规范邻接矩阵,并为各图节点顺序编号;通过规范邻接矩阵生成初始次优规范邻接矩阵树,叶子节点包括第一数量的边,其CSP搜索空间为其所包含节点标签对应的图节点的编号的字典排序顺序组合;依据规范邻接矩阵对叶子节点做FFSM‑Join运算或FFSM‑Extension运算,子图增长得到扩充一条边的孩子节点;以孩子节点作为候选子图,依据子图增长方式构建其CSP搜索空间;若搜索空间的有效个数小于设定支持度阈值,则将候选子图标记为无效子图;若未完成增长,继续进行子图增长,若完成子图增长,则输出频繁子图。通过上述方案能够提高频繁子图挖掘效率。
-
公开(公告)号:CN114490799B
公开(公告)日:2025-02-11
申请号:CN202011254159.8
申请日:2020-11-11
Applicant: 电科云(北京)科技有限公司
IPC: G06F16/2458
Abstract: 本发明提供了一种单个图的频繁子图挖掘方法及装置,其中,该方法包括:根据单个图的节点标签的字典排序结果生成规范邻接矩阵,并为各图节点顺序编号;通过规范邻接矩阵生成初始次优规范邻接矩阵树,叶子节点包括第一数量的边,其CSP搜索空间为其所包含节点标签对应的图节点的编号的字典排序顺序组合;依据规范邻接矩阵对叶子节点做FFSM‑Join运算或FFSM‑Extension运算,子图增长得到扩充一条边的孩子节点;以孩子节点作为候选子图,依据子图增长方式构建其CSP搜索空间;若搜索空间的有效个数小于设定支持度阈值,则将候选子图标记为无效子图;若未完成增长,继续进行子图增长,若完成子图增长,则输出频繁子图。通过上述方案能够提高频繁子图挖掘效率。
-
-
-
-
-
-