基于GPU分组LSM树索引的方法

    公开(公告)号:CN112000846A

    公开(公告)日:2020-11-27

    申请号:CN202010836000.0

    申请日:2020-08-19

    Applicant: 东北大学

    Abstract: 本发明提供一种基于GPU分组LSM树索引的方法,涉及GPU数据库技术领域。本发明首先将数据进行预处理,当value为变长时,在GPU上进行查询时不能很好的利用缓存而且数据传输代价也会增大。本发明针对以上情况,将数据中的Key和Value进行分离,GPU中仅仅存放Value的地址,真正的Value存放在内存中。针对LSM插入速度慢的问题,本发明将原来的LSM树每一层分为多个组,每个组都是一个有序数组,合并到下一层的时候通过GPU上大量的线程并行的归并。由于将LSM树进行分组,意味着查询需要花费更高的代价。为了提高查询速度,本发明在GPU上设计了一种适应于GPU结构的布隆过滤器,通过布隆过滤器减少了大量不必要的查询开销。

    一种基于GPU加速的超空间哈希索引方法

    公开(公告)号:CN112000845A

    公开(公告)日:2020-11-27

    申请号:CN202010835717.3

    申请日:2020-08-19

    Applicant: 东北大学

    Abstract: 本发明提供一种基于GPU加速的超空间哈希索引方法。针对key-value数据库,构建超空间哈希数据结构,使超空间哈希更好地适应GPU,在超空间哈希数据结构中,使用数组结构体而不是结构体数组的数据布局,其中键、次要属性和值分别存储;该数据结构更适合于GPU的线程执行模型和内存层次结构;对于批处理查询,使用通过查询分类来减少分支分歧的warp预组合数据共享策略,而且为了进一步提高超空间哈希数据结构的性能,用原子操作代替加锁,并设计了一种暂时重复读取策略来提高GHSH的性能,实现了无锁的全并发策略;最后,基于超空间哈希数据结构,实现了批量构建、按键搜索、按次要属性搜索、修改、插入和删除的操作。

    基于全视角特征的跨社交网络用户识别方法

    公开(公告)号:CN107480714B

    公开(公告)日:2020-02-21

    申请号:CN201710674020.0

    申请日:2017-08-09

    Applicant: 东北大学

    Abstract: 本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。

    基于匹配用户最优扩展的跨网络用户识别方法

    公开(公告)号:CN110708191A

    公开(公告)日:2020-01-17

    申请号:CN201910922938.1

    申请日:2019-09-27

    Applicant: 东北大学

    Abstract: 本发明提供一种基于匹配用户最优扩展的跨网络用户识别方法,涉及互联网技术领域。本发明步骤如下:步骤1:全局已知匹配用户的扩充;获取已知的少量已匹配用户,形成已匹配用户集合A,对两个网络中的其他用户到已匹配用户的距离进行向量化表示;将匹配结果更新到集合A';步骤2:基于已匹配用户最优局部扩展阶段;根据得到的已匹配用户集合A',找到源网络中所有已匹配用户的邻居,在目的网络的未匹配用户内找到每个邻居的最优匹配用户,将匹配出的用户更新到集合A'中,直至没有新的匹配用户迭代终止,得到最优匹配用户集合A"。本方法通过全局扩充已匹配用户以及改进的迭代式最优局部扩展方法提高了识别方法的准确率和召回率,并解决了冷启动问题。

    一种基于网络结构相似性的对抗网络表示学习方法

    公开(公告)号:CN110674929A

    公开(公告)日:2020-01-10

    申请号:CN201910886809.1

    申请日:2019-09-19

    Applicant: 东北大学

    Inventor: 谷峪 周子涵 于戈

    Abstract: 本发明提供一种基于网络结构相似性的对抗网络表示学习方法,涉及大图数据处理领域。该方法包括:计算给定图中各网络节点对结构相似度,并选取判别器模型训练的正样本集合;计算给定图的全局连通性概率分布;设计节点对结构相似性的判别函数;采用有偏二跳随机游走策略得到判别器模型训练的负样本集合;对判别器模型进行训练,直至优化达到纳什均衡,输出生成器模型和判别器模型的参数。本方法利用网络节点对结构相似度学习节点低维表示向量,得到的表示向量适合于各类网络数据挖掘任务,具有理论保证和实验保证,同时,采用生成对抗训练框架设计了基于截断二步随机游走的生成器模型和基于全局连通性分布相似性的判别器模型,加强了方法的鲁棒性。

    工业供应链数据的语音交互智能自动化检索系统及方法

    公开(公告)号:CN109460454A

    公开(公告)日:2019-03-12

    申请号:CN201811235989.9

    申请日:2018-10-22

    Applicant: 东北大学

    Abstract: 本发明公开了工业供应链数据的语音交互智能自动化检索系统及方法,包括:一个语音交互模块,添加于网页中,用于捕获用户音频;一个数据库,与网页进行交互,用于存储产品的数据;一个AVS服务器,与网页进行交互,包含Alexa的语音识别接口,用于接收捕获的用户音频并将语音识别为文字;一个ASK服务器,与AVS服务器进行交互,包含Alexa Skill Kit,用于将语音识别为文字后再调用Alexa Skill Kit,在ASK中,每个语句都对应有一条操作指令,传入的文字将根据其含义映射到相应的咨询语句的操作指令,并将指令返回,最后,根据指令对数据库进行相应操作并将结果呈现给用户。本发明能够满足用户在机电产品销售数据上的查询准确率要求。

    隐私保护记录链接中的二次分块方法

    公开(公告)号:CN109308423A

    公开(公告)日:2019-02-05

    申请号:CN201811101295.6

    申请日:2018-09-20

    Applicant: 东北大学

    Abstract: 本发明公开一种隐私保护记录链接中的二次分块方法,属于数据集成和数据隐私领域,具体是各数据源对其记录进行Bloom Filter编码,接着,进行以下两个步骤,(1)LSH结合后缀的二次分块方法,并引入分块分散度调节两次分块。(2)基于滑动窗口的多方分块合并,提高链接的容错率。采用本发明的PPRL分块方法,具有LSH方法查全率高和可以对大型数据集快速划分的特点,同时有效地提高了查准率。

    一种安全多方数值型记录匹配方法

    公开(公告)号:CN108334577A

    公开(公告)日:2018-07-27

    申请号:CN201810067980.5

    申请日:2018-01-24

    Applicant: 东北大学

    Abstract: 本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。

    一种基于服装图像和标签文本双模态内容分析的个性化服装的推荐方法

    公开(公告)号:CN107679960A

    公开(公告)日:2018-02-09

    申请号:CN201710947454.3

    申请日:2017-10-12

    Applicant: 东北大学

    Abstract: 本发明公开了一种基于服装图像和标签文本双模态内容分析的个性化服装的推荐方法,包括以下步骤:S1:通过对购物网站的服装图像中的细节属性进行分析,建立以服装细节部位图像和特征形式描述的服装商品模型和用户喜好模型;S2:通过对购物网站的服装标签文本进行分析,建立以文本形式描述的服装商品模型和用户喜好模型;S3:将所述步骤S1建立的基于服装图像的服装商品模型和所述步骤S2建立的用户喜好模型相结合,产生推荐结果。本发明将服装的图像和文本信息进行结合,基于前述两个模型的融合,为用户进行个性化服装推荐。

    基于全视角特征的跨社交网络用户识别方法

    公开(公告)号:CN107480714A

    公开(公告)日:2017-12-15

    申请号:CN201710674020.0

    申请日:2017-08-09

    Applicant: 东北大学

    Abstract: 本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。

Patent Agency Ranking