一种多层语义感知增强的NL2SQL模型及方法

    公开(公告)号:CN118152482A

    公开(公告)日:2024-06-07

    申请号:CN202410072558.4

    申请日:2024-01-18

    Applicant: 东北大学

    Abstract: 本发明设计一种多层语义感知增强的NL2SQL模型及方法,属于自然语言处理技术领域;在构建语义增强的模式链接图阶段,在现有以相似度的方法来构建模式链接图的基础上,有机融合了双曲空间,构建双曲空间和余弦相似性耦合的模式链接图;在此阶段获得的语义增强的模式链接图传输给语义关系嵌入的编码器模块,编码器模块将自然语言查询转换为中间语义向量,在此过程中将相似性作为进一步的增强关系嵌入,最后将编码器模块处理结果输送至考虑对不相关表修剪的解码器模块,进而得到最终的SQL语句;本发明使许多非专家用户也可以使用自然语言查询数据库中的数据,省去了用户学习的SQL语句相关知识的学习成本,提升了模型的准确新,降低了模型的复杂性。

    一种多信息感知的知识图谱实体对齐方法

    公开(公告)号:CN117150036A

    公开(公告)日:2023-12-01

    申请号:CN202311003869.7

    申请日:2023-08-10

    Applicant: 东北大学

    Abstract: 本发明设计一种多信息感知的知识图谱实体对齐方法,属于知识图谱实体对齐技术领域;通过构建关系图来学习关系的嵌入,提出改进的图注意力网络来改善实体的嵌入学习过程,具体用学习到的关系嵌入表示来计算实体邻域信息的注意力得分,用得到的注意力分数进行实体的邻域结构信息聚合;然后进一步整合实体名称信息、结构信息、关系信息和属性信息来相互补充;设计了类似TransE的正则化器来同时关注实体的全局结构特征和局部结构特征,联合优化实体的嵌入表示;并采用延迟接受算法进行全局实体对齐,使实体达成一对一的稳定匹配,提高实体对齐准确度;与现有方法相比,本发明充分考虑了知识图谱中的有用信息,有效的优化了实体的嵌入表示。

    基数估计方法及装置
    43.
    发明公开

    公开(公告)号:CN116662378A

    公开(公告)日:2023-08-29

    申请号:CN202310343475.X

    申请日:2023-03-31

    Abstract: 本说明书一个或多个实施例提供一种基数估计方法及装置,涉及计算机技术领域。该方法包括获取数据查询请求,数据查询请求用于在数据库中查询多个第一指定列中的数据;根据多个第一指定列之间的关联关系,计算多个第一指定列共同的联合概率;根据联合概率,估计数据查询请求对应的基数。本说明书提供的方法不仅能够在多列查询的场景下提供准确的基数估计结果,并且在高负载情况下仍能保持优异的性能表现,进而提高了数据库的查询效率。

    一种关系型数据库基数估计处理方法、装置以及设备

    公开(公告)号:CN116361326A

    公开(公告)日:2023-06-30

    申请号:CN202310237943.5

    申请日:2023-03-13

    Abstract: 本说明书实施例公开了关系型数据库基数估计处理方法、装置以及设备。包括:确定指定的数据库表所包含的第一属性集合;根据第一属性集合内的属性之间的关联性,从第一属性集合内划分出多个属性子集合,包括子集合内属性关联性弱的第二属性子集合、子集合内属性关联性强且与第二属性子集合关联性强的第三属性子集合、子集合内属性关联性强且与其他属性子集合关联性弱的第四属性子集合;通过对第二属性子集合进行横向和/或纵向的切分,进行频率分布统计;从第三属性子集合内,划分出多个与第二属性子集合关联性相对弱的属性次级子集合,将属性次级子集合和第四属性子集合建模为多变量函数;根据频率分布统计结果和建模得到多变量函数,进行基数估计。

    一种数据库中的数据合并方法、装置以及设备

    公开(公告)号:CN115544014A

    公开(公告)日:2022-12-30

    申请号:CN202211291851.7

    申请日:2022-10-20

    Abstract: 本说明书实施例公开了一种数据库中的数据合并方法、装置以及设备。所述数据库具有多个数据存储层,所述多个数据存储层具有时序顺序。方案包括:检测指定的内存存储区域中存储的数据是否达到设定阈值;若是,则从所述内存存储区域中选择符合设定条件的数据,将所述符合设定条件的数据写入所述多个数据存储层中时序最新的数据存储层中,作为一个数据子集合;在所述时序最新的数据存储层中,确定已存在的各所述数据子集合的总数量和占据的总存储空间;根据所述总数量和所述总存储空间,判断是否将所述时序最新的数据存储层中的数据,向所述多个数据存储层中时序次新的数据存储层中合并。

    一种数据处理方法、装置、存储介质及电子设备

    公开(公告)号:CN115391609A

    公开(公告)日:2022-11-25

    申请号:CN202211014403.2

    申请日:2022-08-23

    Abstract: 本说明书提供了一种数据处理方法、装置、存储介质及电子设备。在本说明书提供的数据处理方法中,会确定数据写入请求中包含的待写入数据的标识;随后判断目标链表中是否存在与所述待写入数据的标识相同的数据;若是,则删除目标链表中与所述待写入数据的标识相同的数据,并将所述待写入数据写入第一队列;若否,则直接将所述待写入数据写入第一队列;当第二队列满足压缩条件时,将第二队列的数据移动至外部存储器。在采用本说明书提供的数据处理方法处理采用日志结构合并树结构数据库的系统中的数据时,可通过删除重复标识的数据的方式,有效削减需要处理的数据量,避免了由于重复写入相同标识的数据而导致的系统吞吐量降低,性能受到影响。

    一种数据处理方法、装置、可读存储介质及电子设备

    公开(公告)号:CN115374117A

    公开(公告)日:2022-11-22

    申请号:CN202211014402.8

    申请日:2022-08-23

    Abstract: 本说明书公开了一种数据处理方法、装置、可读存储介质及电子设备,基于预先部署的热数据表和冷数据表,从热数据表和冷数据表中查询该数据处理请求中携带的待处理键对应的键值对,作为指定键值对,并确定指定键值对处理后的目标键值对,并根据该指定键值对在热数据表和冷数据表中的存储位置,将该目标键值对存储在热数据表中。本方法中的冷数据表和热数据表,仅存储有各键分别对应的最新处理结果,因此在进行数据查询时,仅需在热数据表和冷数据表中查询该待处理键对应的指定键值对,避免了在进行数据查询时需遍历大量无效键值对的情况出现,提高了数据查询和数据处理的效率。

    基于全视角特征的跨社交网络用户识别方法

    公开(公告)号:CN107480714B

    公开(公告)日:2020-02-21

    申请号:CN201710674020.0

    申请日:2017-08-09

    Applicant: 东北大学

    Abstract: 本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。

    基于匹配用户最优扩展的跨网络用户识别方法

    公开(公告)号:CN110708191A

    公开(公告)日:2020-01-17

    申请号:CN201910922938.1

    申请日:2019-09-27

    Applicant: 东北大学

    Abstract: 本发明提供一种基于匹配用户最优扩展的跨网络用户识别方法,涉及互联网技术领域。本发明步骤如下:步骤1:全局已知匹配用户的扩充;获取已知的少量已匹配用户,形成已匹配用户集合A,对两个网络中的其他用户到已匹配用户的距离进行向量化表示;将匹配结果更新到集合A';步骤2:基于已匹配用户最优局部扩展阶段;根据得到的已匹配用户集合A',找到源网络中所有已匹配用户的邻居,在目的网络的未匹配用户内找到每个邻居的最优匹配用户,将匹配出的用户更新到集合A'中,直至没有新的匹配用户迭代终止,得到最优匹配用户集合A"。本方法通过全局扩充已匹配用户以及改进的迭代式最优局部扩展方法提高了识别方法的准确率和召回率,并解决了冷启动问题。

Patent Agency Ranking