语义增强的异构信息网络上Top-k相似度搜索方法

    公开(公告)号:CN111222049A

    公开(公告)日:2020-06-02

    申请号:CN202010016654.9

    申请日:2020-01-08

    Applicant: 东北大学

    Abstract: 本发明属于大数据信息检索技术领域,涉及语义增强的异构信息网络上Top-k相似度搜索方法,包括如下步骤:步骤1:节点表示。使用预训练方法生成异构信息网络数据集中所有节点的内容和结构表示。步骤2:路径表示。步骤3:设计注意力层以结合两个卷积神经网络通道训练得到的内容和结构信息,步骤4:通过将以上综合表示CS输入MLP中,步骤5:使用对数损失函数训练模型。本发明模型利用卷积神经网络的两个通道同时分别训练内容信息和结构信息,并且采用了两种注意力机制,用于动态的区分不同元路径的语义差异性以及结合对象的内容和结构信息进行模型的综合训练。

    基于多路分块的渐近式实体识别方法

    公开(公告)号:CN106909679B

    公开(公告)日:2020-02-07

    申请号:CN201710122912.X

    申请日:2017-03-03

    Applicant: 东北大学

    Abstract: 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。

    一种基于GPU的动态图着色方法

    公开(公告)号:CN109741421A

    公开(公告)日:2019-05-10

    申请号:CN201910062804.7

    申请日:2019-01-23

    Applicant: 东北大学

    Abstract: 本发明提出一种基于GPU的动态图着色方法,步骤为:将原始无向图转化成定向图;批量进行删除、插入操作进行后批量合并更新定向图;用压缩稀疏行CSR方式存储定向图的外邻信息,压缩稀疏列CSC方式存储定向图的内邻信息,并将外邻信息与内邻信息分别传输到GPU全局内存上;判断队列是否为空或低于阈值,若否,则利用贪婪着色方法对待更新结点构成的子图进行分区,把分区结果传输至GPU端;若是,则交由CPU端处理;根据分区结果并行地对每个区内的结点进行RC-Hybrid着色;本发明方法可以充分利用GPU并行的处理能力、对待结点进行混合分块设计提高了并发性并保证着色结果的正确性与一致性。

    一种支持用户私有IP发现的跨屏追踪方法

    公开(公告)号:CN108924246A

    公开(公告)日:2018-11-30

    申请号:CN201810826981.3

    申请日:2018-07-25

    Applicant: 东北大学

    CPC classification number: H04L67/02 G06K9/6215 G06K9/6218 G06K9/6259

    Abstract: 本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF-IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F-0.5值上都有较大幅度的提升。

    基于半懒惰学习的图流链路预测方法

    公开(公告)号:CN107018020A

    公开(公告)日:2017-08-04

    申请号:CN201710205511.0

    申请日:2017-03-31

    Applicant: 东北大学

    CPC classification number: H04L45/02 G06Q10/04 G06Q50/01 H04L41/147 H04L45/123

    Abstract: 本发明公开一种基于半懒惰学习的图流链路预测方法,在数据挖掘、机器学习、深度学习和概率论等方向,链路预测问题已经有很多有深度和广泛研究,并取得了不错的结果。在真实环境中,图的规模非常巨大,并且图是一直快速的在变动与衍进,在最近几年的研究中称为图流模型。然而,由于算法与硬件的限制,目前的链路预测方法不能有效的解决在图流数据。因此在图流模型下迫切的需要一种能够在线的高效的链路预测方法。本文结合相对高效的基于局部信息相似性的链路预测方法,提出一种半懒惰学习的在线学习算法,在理论保证下,可以有效的解决图流的链路预测问题,并对真实环境中图流数据集做了实验,实验结果最后证明了本发明提出方法的准确性与高效性。

    一种分布式计算图节点相似度的方法

    公开(公告)号:CN104158840B

    公开(公告)日:2017-07-07

    申请号:CN201410323742.8

    申请日:2014-07-09

    Applicant: 东北大学

    Abstract: 一种分布式计算图节点相似度的方法,属于计算机数据挖掘领域,包括:采用主从模式搭建分布式计算平台;主计算机读入对象数据,建立图模型并发送给各子计算机;主计算机进行任务划分,并将各子任务分配给各子计算机;各子计算机计算其各任务节点分别传递给图模型中节点对的相似度增量计算值;主计算机计算偏移系数并分别发送给对应的各子计算机;子计算机对本地各任务节点的相似度增量计算值进行修正,并将修正后的本地各任务节点的相似度增量进行求和后传送给主计算机;主计算机对图模型中各节点对的相似度进行整合,最终得到图模型中各个节点对的相似度;该方法相比于传统SimRank计算方法,传输代价低,计算时间短,效率明显提高。

    关系数据库中可扩展标记语言文档全文检索查询索引方法

    公开(公告)号:CN102033954B

    公开(公告)日:2012-10-17

    申请号:CN201010605202.0

    申请日:2010-12-24

    Applicant: 东北大学

    Abstract: 一种关系数据库中可扩展标记语言文档全文检索查询索引方法,包括:采用基于标签序列的二维关系表方式存储XML文档数据;构建文档结构基本信息表;在文档结构基本信息表的节点文本列上创建基于单词的倒排索引;进行基于索引的全文检索查询四个步骤,本发明的索引方法能够有效提高对可扩展标记语言文档的管理效率和可扩展标记语言文档进行全文检索操作时的执行效率,减少查询执行时间;也具有较高的通用性,通过使用关系模式对XML文档数据和索引数据进行存储,能够与已有的关系数据库无缝融合;同时能够应用于对XML文档数据的关键字检索的查询中,提高查询的执行效率。

    环形架构数据库上预连接表的生成方法

    公开(公告)号:CN102323947A

    公开(公告)日:2012-01-18

    申请号:CN201110260847.X

    申请日:2011-09-05

    Applicant: 东北大学

    Abstract: 一种环形架构数据库上预连接表的生成方法,属于分布式数据存储领域,方法为:建立Key-Value数据库;构建关键列的列值索引并将其存储到数据库中;生成预连接表;若原数据表进行更新,则对相应预连接表进行更新;进行数据查询,输出查询结果;采用本发明的预连接表生成方法,可以在环形架构的Key-Value数据库中高效的生成预连接表,提供快速的连接查询功能;通过优化计算过程,降低了生成连接表的时间空间代价,加快了计算速度;同时根据更新维护方法,降低了查询延迟,可以提供实时的连接查询结果。

    可重配置FPGA上可抢占硬件多任务系统及其实现方法

    公开(公告)号:CN101727423B

    公开(公告)日:2011-12-07

    申请号:CN200810228134.3

    申请日:2008-10-17

    Applicant: 东北大学

    Abstract: 本发明涉及一种可重配置FPGA上可抢占硬件多任务系统及其实现方法,系统包括可重配置逻辑模块,通过通信接口与总线宏相连接;硬件任务访问控制器,通过总线宏与可重配置逻辑模块相连;ICAP控制器,通过ICAP接口与可重配置逻辑模块相连;外部存储器控制器,与FPGA外部存储器相联;微处理器,通过总线宏与硬件任务访问控制器相连;方法为:要求任务i运行;判断是否有容纳任务i运行的空间;如没有则选择正在执行的任务j;停止任务j时钟,读取硬件任务j;将硬件任务i的比特流从外部存储器控制器读取至ICAP控制器;判断任务i是否是曾经被执行并被抢占的任务;如果是,则将任务i的状态信息写入状态寄存器。本发明降低了硬件任务抢占时的时间开销,硬件任务恢复时比特流下载的时间短。

    一种基于实体的自底向上Web数据抽取方法

    公开(公告)号:CN102262658A

    公开(公告)日:2011-11-30

    申请号:CN201110196449.6

    申请日:2011-07-13

    Applicant: 东北大学

    Abstract: 本发明提供了一种基于实体的自底向上Web数据抽取方法,属于网络数据管理领域,具体步骤包括:选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式;本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。

Patent Agency Ranking