-
公开(公告)号:CN106909679B
公开(公告)日:2020-02-07
申请号:CN201710122912.X
申请日:2017-03-03
Applicant: 东北大学
IPC: G06F16/215 , G06F16/245
Abstract: 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。
-
公开(公告)号:CN108924246A
公开(公告)日:2018-11-30
申请号:CN201810826981.3
申请日:2018-07-25
Applicant: 东北大学
CPC classification number: H04L67/02 , G06K9/6215 , G06K9/6218 , G06K9/6259
Abstract: 本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF-IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。
-
公开(公告)号:CN104158840B
公开(公告)日:2017-07-07
申请号:CN201410323742.8
申请日:2014-07-09
Applicant: 东北大学
Abstract: 一种分布式计算图节点相似度的方法,属于计算机数据挖掘领域,包括:采用主从模式搭建分布式计算平台;主计算机读入对象数据,建立图模型并发送给各子计算机;主计算机进行任务划分,并将各子任务分配给各子计算机;各子计算机计算其各任务节点分别传递给图模型中节点对的相似度增量计算值;主计算机计算偏移系数并分别发送给对应的各子计算机;子计算机对本地各任务节点的相似度增量计算值进行修正,并将修正后的本地各任务节点的相似度增量进行求和后传送给主计算机;主计算机对图模型中各节点对的相似度进行整合,最终得到图模型中各个节点对的相似度;该方法相比于传统SimRank计算方法,传输代价低,计算时间短,效率明显提高。
-
公开(公告)号:CN102323947A
公开(公告)日:2012-01-18
申请号:CN201110260847.X
申请日:2011-09-05
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种环形架构数据库上预连接表的生成方法,属于分布式数据存储领域,方法为:建立Key-Value数据库;构建关键列的列值索引并将其存储到数据库中;生成预连接表;若原数据表进行更新,则对相应预连接表进行更新;进行数据查询,输出查询结果;采用本发明的预连接表生成方法,可以在环形架构的Key-Value数据库中高效的生成预连接表,提供快速的连接查询功能;通过优化计算过程,降低了生成连接表的时间空间代价,加快了计算速度;同时根据更新维护方法,降低了查询延迟,可以提供实时的连接查询结果。
-
-
公开(公告)号:CN101582074A
公开(公告)日:2009-11-18
申请号:CN200910010201.9
申请日:2009-01-21
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。
-
公开(公告)号:CN101561813A
公开(公告)日:2009-10-21
申请号:CN200910011738.7
申请日:2009-05-27
Applicant: 东北大学
Abstract: 一种Web环境下的字符串相似度分析方法,首先定义基本操作代价;对字符串预处理,识别它的词首字符和去除非实意字符;创建距离矩阵,通过创建匹配索引实现编辑距离的优化;然后,判断缩写词,先判断两个字符串是否是缩写关系,如果是缩写关系则进行距离优化;其中,缩写关系由2个因素决定:①判断两者是否有相似度;②判断两者的词首字符是否被匹配;之后对缩写词距离优化,通过减少连续插入字符和连续删除字符的代价实现。本发明的字符串相似度分析方法能很好地处理web中经常出现的省略、缩写和字符顺序颠倒情况,具有较高适用性,在Web未知环境下,具有较高的匹配精度。
-
公开(公告)号:CN118152482A
公开(公告)日:2024-06-07
申请号:CN202410072558.4
申请日:2024-01-18
Applicant: 东北大学
IPC: G06F16/28 , G06F16/242 , G06F40/30 , G06N3/0499 , G06N3/048 , G06N3/08
Abstract: 本发明设计一种多层语义感知增强的NL2SQL模型及方法,属于自然语言处理技术领域;在构建语义增强的模式链接图阶段,在现有以相似度的方法来构建模式链接图的基础上,有机融合了双曲空间,构建双曲空间和余弦相似性耦合的模式链接图;在此阶段获得的语义增强的模式链接图传输给语义关系嵌入的编码器模块,编码器模块将自然语言查询转换为中间语义向量,在此过程中将相似性作为进一步的增强关系嵌入,最后将编码器模块处理结果输送至考虑对不相关表修剪的解码器模块,进而得到最终的SQL语句;本发明使许多非专家用户也可以使用自然语言查询数据库中的数据,省去了用户学习的SQL语句相关知识的学习成本,提升了模型的准确新,降低了模型的复杂性。
-
公开(公告)号:CN117150036A
公开(公告)日:2023-12-01
申请号:CN202311003869.7
申请日:2023-08-10
Applicant: 东北大学
Abstract: 本发明设计一种多信息感知的知识图谱实体对齐方法,属于知识图谱实体对齐技术领域;通过构建关系图来学习关系的嵌入,提出改进的图注意力网络来改善实体的嵌入学习过程,具体用学习到的关系嵌入表示来计算实体邻域信息的注意力得分,用得到的注意力分数进行实体的邻域结构信息聚合;然后进一步整合实体名称信息、结构信息、关系信息和属性信息来相互补充;设计了类似TransE的正则化器来同时关注实体的全局结构特征和局部结构特征,联合优化实体的嵌入表示;并采用延迟接受算法进行全局实体对齐,使实体达成一对一的稳定匹配,提高实体对齐准确度;与现有方法相比,本发明充分考虑了知识图谱中的有用信息,有效的优化了实体的嵌入表示。
-
公开(公告)号:CN116662378A
公开(公告)日:2023-08-29
申请号:CN202310343475.X
申请日:2023-03-31
Applicant: 东北大学 , 北京奥星贝斯科技有限公司
IPC: G06F16/2453
Abstract: 本说明书一个或多个实施例提供一种基数估计方法及装置,涉及计算机技术领域。该方法包括获取数据查询请求,数据查询请求用于在数据库中查询多个第一指定列中的数据;根据多个第一指定列之间的关联关系,计算多个第一指定列共同的联合概率;根据联合概率,估计数据查询请求对应的基数。本说明书提供的方法不仅能够在多列查询的场景下提供准确的基数估计结果,并且在高负载情况下仍能保持优异的性能表现,进而提高了数据库的查询效率。
-
-
-
-
-
-
-
-
-