基于数据模式转换和并行框架的关系数据查询优化方法

    公开(公告)号:CN107169033B

    公开(公告)日:2020-03-31

    申请号:CN201710249567.6

    申请日:2017-04-17

    Abstract: 本发明提供一种基于数据模式转换和并行框架的关系数据查询优化方法,涉及计算机数据库技术领域。该方法通过对关系模型数据上复杂查询语句进行结构分析,构建新的数据存储结构,实现在数据存储上的转换处理,将关系模型数据库中存储的数据转存到新的数据模式存储系统中,针对数据模式的变化进行相应查询语句的转换,基于SPARK SQL查询生成SPARK任务并执行该任务。本发明提供的关系数据查询优化方法能够将关系数据库中的数据针对查询的特征准确地转换到SPARK并行查询处理框架之上,从而有效提高对关系数据库上部分频繁执行的复杂查询的处理效率。

    一种外包空间数据库中反最远邻居验证方法

    公开(公告)号:CN106970983B

    公开(公告)日:2020-02-21

    申请号:CN201710196480.7

    申请日:2017-03-29

    Applicant: 东北大学

    Abstract: 本发明公开一种适用于外包空间数据库中反最远邻居验证方法,基于位置服务和时空数据管理领域,保证客户端接受反最远邻居结果集的正确性,整体处理分为第三方服务器处理和客户端验证两个部分。基于MR‑Tree索引结构,提出缩减验证对象的优化算法来降低通信和客户端验证等代价。服务器响应请求的步骤:判断请求是否有效;针对有效查询利用半平面修剪技术生成Influenced Zone;采用范围查询验证思想,形成结果集和其VO;发送结果集、VO和Influenced Zone给客户端。客户端验证步骤:利用VO判断数据是否可靠;通过Influenced Zone筛选数据后与结果集比较;若一致,则验证成功,客户端接受该结果集。本发明的算法应用于海量数据中基于位置服务的RkFN查询验证,效率较高,应用范围广泛。

    基于多路分块的渐近式实体识别方法

    公开(公告)号:CN106909679A

    公开(公告)日:2017-06-30

    申请号:CN201710122912.X

    申请日:2017-03-03

    Applicant: 东北大学

    Abstract: 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。

    关系数据库中可扩展标记语言文档全文检索查询索引方法

    公开(公告)号:CN102033954A

    公开(公告)日:2011-04-27

    申请号:CN201010605202.0

    申请日:2010-12-24

    Applicant: 东北大学

    Abstract: 一种关系数据库中可扩展标记语言文档全文检索查询索引方法,包括:采用基于标签序列的二维关系表方式存储XML文档数据;构建文档结构基本信息表;在文档结构基本信息表的节点文本列上创建基于单词的倒排索引;进行基于索引的全文检索查询四个步骤,本发明的索引方法能够有效提高对可扩展标记语言文档的管理效率和可扩展标记语言文档进行全文检索操作时的执行效率,减少查询执行时间;也具有较高的通用性,通过使用关系模式对XML文档数据和索引数据进行存储,能够与已有的关系数据库无缝融合;同时能够应用于对XML文档数据的关键字检索的查询中,提高查询的执行效率。

    一种基于长用户行为的序列化推荐方法、装置及存储介质

    公开(公告)号:CN117390074A

    公开(公告)日:2024-01-12

    申请号:CN202311042889.5

    申请日:2023-08-18

    Applicant: 东北大学

    Abstract: 本发明属于序列化推荐系统领域,提出一种基于长用户行为的序列化推荐方法、装置及存储介质。基于现有语言模型改进;将用户交互历史序列分为多个用户交互历史子序列,与用户交互历史对应的下一时刻真实交互商品输入至编码器、解码器后,获得对应向量表示;选取负样本商品同向量表示组成向量空间,计算用户交互历史同正样本商品、负样本商品的相关性,获得损失值,根据交叉熵损失函数来对比学习训练语言模型参数,最终得到训练完成的语言模型,用于预测下一推荐商品。本发明提出的序列化推荐方法,在商品推荐方面取得了最先进的效果,无论在高频场景还是低频场景都可以有效预测。

    基于参数服务器架构的图数据与参数数据的混合划分方法

    公开(公告)号:CN113191486B

    公开(公告)日:2023-10-13

    申请号:CN202110458807.X

    申请日:2021-04-27

    Applicant: 东北大学

    Abstract: 本发明公开一种基于参数服务器架构的图数据与参数数据的混合划分方法,首先将图顶点按广度优先遍历的方式重新处理编号,将顶点编号划分为大小相等的P个区间,取区间的中间值对应的顶点作为多个初始分区,然后基于图拓扑数据与顶点特征维度计算当前分区邻域顶点的代价分数,根据代价分数对邻域顶点进行排序,选取代价分数最小的多个邻域顶点加入当前分区,同时更新当前分区顶点特征权重向量。通过对比多个分区的顶点特征权重向量,将图神经网络模型参数按行划分至在计算时需要使用该参数行顶点的数量最多的分区中。适用于支持图神经网络算法的参数服务器系统,能够减少系统运行时的网络通信开销,加速系统计算效率。

    一种基于GPU加速的确定性事务并发控制方法

    公开(公告)号:CN115080670A

    公开(公告)日:2022-09-20

    申请号:CN202210703706.9

    申请日:2022-06-21

    Applicant: 东北大学

    Abstract: 一种基于GPU加速的确定性事务并发控制方法,属于数据库事务处理领域;本发明将数据库事务迁移至GPU进行处理,将事务分解成单个读取操作或写入操作,后在GPU中按照先并行处理读取操作,后并行处理写入操作的顺序执行事务;在执行事务之后对事务进行事务内冲突检测和事务间冲突检测,并在完成两种检测后进行事务提交;本方法实现了事务内与事务间的无锁定全并发策略,并且在整体事务迁移到GPU执行前仅需确定事务的读写集,并不需要构造依赖图等计算资源消耗高的事务执行依赖数据,仅需在事务执行完成之后对其中的冲突进行检测。

    一种GPU上的多维KD树优化方法

    公开(公告)号:CN113204559A

    公开(公告)日:2021-08-03

    申请号:CN202110569679.6

    申请日:2021-05-25

    Applicant: 东北大学

    Abstract: 本发明提供一种GPU上的多维KD树优化方法,用于在GPU中加速KD索引的构建与查询过程;本发明从待划分数据集的全体出发,将传统KD树上的二等分划分操作视作一种可分配资源,并将这种资源称之为额度,从如何有效分配额度资源的角度,提出了一种GPU上优化KD树构建与查询过程的新方法和新技术;基于额度分配策略,贪心划分策略,通过提高每次排序的利用率,获得了更大的划分效率,加速了KD树构建过程,降低了KD树的深度;利用学习索引的思想优化了中间节点的参数访问方式,有效降低了批量查询过程中线程束的分化状况,优化了批量查询的性能。

    基于参数服务器架构的图数据与参数数据的混合划分方法

    公开(公告)号:CN113191486A

    公开(公告)日:2021-07-30

    申请号:CN202110458807.X

    申请日:2021-04-27

    Applicant: 东北大学

    Abstract: 本发明公开一种基于参数服务器架构的图数据与参数数据的混合划分方法,首先将图顶点按广度优先遍历的方式重新处理编号,将顶点编号划分为大小相等的P个区间,取区间的中间值对应的顶点作为多个初始分区,然后基于图拓扑数据与顶点特征维度计算当前分区邻域顶点的代价分数,根据代价分数对邻域顶点进行排序,选取代价分数最小的多个邻域顶点加入当前分区,同时更新当前分区顶点特征权重向量。通过对比多个分区的顶点特征权重向量,将图神经网络模型参数按行划分至在计算时需要使用该参数行顶点的数量最多的分区中。适用于支持图神经网络算法的参数服务器系统,能够减少系统运行时的网络通信开销,加速系统计算效率。

Patent Agency Ranking