-
公开(公告)号:CN115544014A
公开(公告)日:2022-12-30
申请号:CN202211291851.7
申请日:2022-10-20
Applicant: 东北大学 , 北京奥星贝斯科技有限公司
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本说明书实施例公开了一种数据库中的数据合并方法、装置以及设备。所述数据库具有多个数据存储层,所述多个数据存储层具有时序顺序。方案包括:检测指定的内存存储区域中存储的数据是否达到设定阈值;若是,则从所述内存存储区域中选择符合设定条件的数据,将所述符合设定条件的数据写入所述多个数据存储层中时序最新的数据存储层中,作为一个数据子集合;在所述时序最新的数据存储层中,确定已存在的各所述数据子集合的总数量和占据的总存储空间;根据所述总数量和所述总存储空间,判断是否将所述时序最新的数据存储层中的数据,向所述多个数据存储层中时序次新的数据存储层中合并。
-
公开(公告)号:CN115391609A
公开(公告)日:2022-11-25
申请号:CN202211014403.2
申请日:2022-08-23
Applicant: 东北大学 , 北京奥星贝斯科技有限公司
IPC: G06F16/901 , G06F16/174
Abstract: 本说明书提供了一种数据处理方法、装置、存储介质及电子设备。在本说明书提供的数据处理方法中,会确定数据写入请求中包含的待写入数据的标识;随后判断目标链表中是否存在与所述待写入数据的标识相同的数据;若是,则删除目标链表中与所述待写入数据的标识相同的数据,并将所述待写入数据写入第一队列;若否,则直接将所述待写入数据写入第一队列;当第二队列满足压缩条件时,将第二队列的数据移动至外部存储器。在采用本说明书提供的数据处理方法处理采用日志结构合并树结构数据库的系统中的数据时,可通过删除重复标识的数据的方式,有效削减需要处理的数据量,避免了由于重复写入相同标识的数据而导致的系统吞吐量降低,性能受到影响。
-
公开(公告)号:CN115374117A
公开(公告)日:2022-11-22
申请号:CN202211014402.8
申请日:2022-08-23
Applicant: 北京奥星贝斯科技有限公司 , 东北大学
IPC: G06F16/22 , G06F16/21 , G06F16/2453
Abstract: 本说明书公开了一种数据处理方法、装置、可读存储介质及电子设备,基于预先部署的热数据表和冷数据表,从热数据表和冷数据表中查询该数据处理请求中携带的待处理键对应的键值对,作为指定键值对,并确定指定键值对处理后的目标键值对,并根据该指定键值对在热数据表和冷数据表中的存储位置,将该目标键值对存储在热数据表中。本方法中的冷数据表和热数据表,仅存储有各键分别对应的最新处理结果,因此在进行数据查询时,仅需在热数据表和冷数据表中查询该待处理键对应的指定键值对,避免了在进行数据查询时需遍历大量无效键值对的情况出现,提高了数据查询和数据处理的效率。
-
公开(公告)号:CN107480714B
公开(公告)日:2020-02-21
申请号:CN201710674020.0
申请日:2017-08-09
Applicant: 东北大学
Abstract: 本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。
-
公开(公告)号:CN110708191A
公开(公告)日:2020-01-17
申请号:CN201910922938.1
申请日:2019-09-27
Applicant: 东北大学
Abstract: 本发明提供一种基于匹配用户最优扩展的跨网络用户识别方法,涉及互联网技术领域。本发明步骤如下:步骤1:全局已知匹配用户的扩充;获取已知的少量已匹配用户,形成已匹配用户集合A,对两个网络中的其他用户到已匹配用户的距离进行向量化表示;将匹配结果更新到集合A';步骤2:基于已匹配用户最优局部扩展阶段;根据得到的已匹配用户集合A',找到源网络中所有已匹配用户的邻居,在目的网络的未匹配用户内找到每个邻居的最优匹配用户,将匹配出的用户更新到集合A'中,直至没有新的匹配用户迭代终止,得到最优匹配用户集合A"。本方法通过全局扩充已匹配用户以及改进的迭代式最优局部扩展方法提高了识别方法的准确率和召回率,并解决了冷启动问题。
-
公开(公告)号:CN109308423A
公开(公告)日:2019-02-05
申请号:CN201811101295.6
申请日:2018-09-20
Applicant: 东北大学
IPC: G06F21/62
Abstract: 本发明公开一种隐私保护记录链接中的二次分块方法,属于数据集成和数据隐私领域,具体是各数据源对其记录进行Bloom Filter编码,接着,进行以下两个步骤,(1)LSH结合后缀的二次分块方法,并引入分块分散度调节两次分块。(2)基于滑动窗口的多方分块合并,提高链接的容错率。采用本发明的PPRL分块方法,具有LSH方法查全率高和可以对大型数据集快速划分的特点,同时有效地提高了查准率。
-
公开(公告)号:CN108334577A
公开(公告)日:2018-07-27
申请号:CN201810067980.5
申请日:2018-01-24
Applicant: 东北大学
Abstract: 本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。
-
公开(公告)号:CN107480714A
公开(公告)日:2017-12-15
申请号:CN201710674020.0
申请日:2017-08-09
Applicant: 东北大学
Abstract: 本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。
-
-
公开(公告)号:CN101582074B
公开(公告)日:2011-01-26
申请号:CN200910010201.9
申请日:2009-01-21
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。
-
-
-
-
-
-
-
-
-