一种同时面向封闭域与开放域的联合属性抽取方法和装置

    公开(公告)号:CN117010391A

    公开(公告)日:2023-11-07

    申请号:CN202310824436.1

    申请日:2023-07-06

    Applicant: 北京大学

    Inventor: 邹磊 李彦增

    Abstract: 本发明涉及一种同时面向封闭域与开放域的联合属性抽取方法和装置。该方法包括:对待抽取属性的文本进行分词,得到由一系列词构成的序列集合;利用神经网络模型对分词得到的序列集合进行编码,得到文本向量;构建属性树,利用神经网络模型对编码后的文本向量进行解码,得到属性值与属性名,并将属性值与属性名复制到属性树对应的层级,得到属性树;将属性树的各个分支展开为头实体、属性值、属性名三元组,完成属性抽取。本发明可以实现对封闭域和开放域文本属性名、属性值的统一抽取,抽取形式统一,抽取效果好,使用时占用资源少,编码解码速度快。

    路径查询的方法和装置
    32.
    发明授权

    公开(公告)号:CN107463671B

    公开(公告)日:2019-12-13

    申请号:CN201710657819.9

    申请日:2017-08-03

    Applicant: 北京大学

    Inventor: 张雨 曾立 邹磊

    Abstract: 本发明提供了一种路径查询的方法和装置,属于计算机技术领域。该方法包括:确定查询条件所对应的正则路径查询;基于预设的正则路径转换表,将正则表达式中包含第一正则符号的谓词表达式转换为包含第二正则符号的谓词表达式,在进行转换后的正则表达式中,确定不包含第二正则符号的谓词表达式序列T[i],对每个T[i]进行查询,得到包含T[i]的至少一条路径和T[i]对应的中间节点集,根据每个T[i]对应的中间节点集,对转换后的正则表达式中被T[i]分割的包含第二正则符号的谓词表达式序列L[j]进行查询,得到包含L[j]的至少一条路径,将包含T[i]的至少一条路径与包含L[j]的至少一条路径进行拼接,得到满足查询条件的至少一条路径。采用本发明,可以提高查询效率。

    基于SIMD指令的图数据库中集合求交方法和装置

    公开(公告)号:CN108897787A

    公开(公告)日:2018-11-27

    申请号:CN201810588419.1

    申请日:2018-06-08

    Applicant: 北京大学

    Inventor: 韩硕 邹磊

    Abstract: 本申请属于数据库技术领域,具体涉及一种基于SIMD指令的图数据库中集合求交方法和装置。该方法通过将目标图中的每个图顶点的邻居顶点集合表示为一个对应的位图,然后将各位图划分为长度相等的数据域,为每个数据域设置一个对应的基址域,再利用SIMD指令对位图进行求交来获取目标图中图顶点的邻居顶点集合的求交结果,可以提高使用SIMD指令进行集合求交时的数据层级并行度,从而节省集合求交所用的时间;另外,通过字节检查方法过滤两个位图的基址域中不可能相等的基址域,再对两个位图的基址域中可能相等的基址域进行对齐比较,然后再获取相等的基址域对应的数据域的逻辑与操作结果,可以减少对两个集合的基址域进行比较的次数,节省了时间。

    路径查询的方法和装置
    34.
    发明公开

    公开(公告)号:CN107463671A

    公开(公告)日:2017-12-12

    申请号:CN201710657819.9

    申请日:2017-08-03

    Applicant: 北京大学

    Inventor: 张雨 曾立 邹磊

    Abstract: 本发明提供了一种路径查询的方法和装置,属于计算机技术领域。该方法包括:确定查询条件所对应的正则路径查询;基于预设的正则路径转换表,将正则表达式中包含第一正则符号的谓词表达式转换为包含第二正则符号的谓词表达式,在进行转换后的正则表达式中,确定不包含第二正则符号的谓词表达式序列T[i],对每个T[i]进行查询,得到包含T[i]的至少一条路径和T[i]对应的中间节点集,根据每个T[i]对应的中间节点集,对转换后的正则表达式中被T[i]分割的包含第二正则符号的谓词表达式序列L[j]进行查询,得到包含L[j]的至少一条路径,将包含T[i]的至少一条路径与包含L[j]的至少一条路径进行拼接,得到满足查询条件的至少一条路径。采用本发明,可以提高查询效率。

    自然语言问答方法及装置
    35.
    发明公开

    公开(公告)号:CN104915340A

    公开(公告)日:2015-09-16

    申请号:CN201410085902.X

    申请日:2014-03-10

    Abstract: 本发明实施例公开了一种自然语言问答方法及装置,属于信息检索和处理领域。所述方法包括:获取自然语言问句N;将所述自然语言问句N转换为查询语义图Qs,所述查询语义图Qs中的每条边代表所述自然语言问句N中的一个语义关系;在RDF图G中查找与所述查询语义图Qs匹配的子图;根据所述子图得到所述自然语言问句N的答案。本发明实施例解决了在问题理解阶段需要耗费很大的计算量来消歧的问题;达到了提供了一种全新的自然语言问答机制,将自然语言问句N转换为查询语义图Qs时不需要消歧,消歧过程在查找与查询语义图Qs匹配的子图的过程中自然完成的效果。

    一种大规模数据集上的关系查询方法

    公开(公告)号:CN102332009B

    公开(公告)日:2013-09-04

    申请号:CN201110259125.2

    申请日:2011-09-02

    Applicant: 北京大学

    Abstract: 本发明公开了一种大规模数据集上的关系查询方法,属于语义网领域。本方法为:1)计算语义数据有向图G中只包含同一种标签的连通子图;2)合并连通子图,将有向图G划分为若干子图;3)计算合并后的每一子图中最强连通子图C,并计算其二部图;4)将所有子图C的最短路径存储到一路径集合RS中;5)记录划分的每一子图中具有标签非冗余路径的两个点的标签,得到每一子图的标签集合;6)利用标签集合判断有向图G中是否存在符合查询条件的路径;如果有,则返回查询路径结果;否则,在子图之间进行遍历,根据集合RS确定可到达目标节点的子图,然后利用该子图的标签集合返回查询路径结果。本发明支持海量数据的关系查询,并且扩展性强。

    一种高效精确的图编辑距离计算方法和装置

    公开(公告)号:CN119785058A

    公开(公告)日:2025-04-08

    申请号:CN202411617571.X

    申请日:2024-11-13

    Applicant: 北京大学

    Inventor: 邹磊 王斐

    Abstract: 本发明涉及一种高效精确的图编辑距离计算方法和装置。该方法包括:将图分为已匹配图、未匹配图以及跨边,其中已匹配图包含已匹配节点,未匹配图包含未匹配节点,已匹配节点和未匹配节点通过跨边连接;计算已匹配图的GED值、未匹配图的GED值以及跨边的GED值;将已匹配图的GED值、未匹配图的GED值和跨边的GED值相加,得到最终的GED估值。本发明可以在训练数据较少的情况下,准确高效地估计GED值。

    利用动态树结构投机解码加速大模型推理的方法和系统

    公开(公告)号:CN119721235A

    公开(公告)日:2025-03-28

    申请号:CN202411583047.5

    申请日:2024-11-07

    Applicant: 北京大学

    Inventor: 邹磊 熊云帆

    Abstract: 本发明涉及一种利用动态树结构投机解码加速大模型推理的方法和系统。该方法包括:采用小模型对输入的文字进行处理,生成树结构的预测字符;将输入的文字和小模型生成的预测字符一起输入大模型,通过大模型推理过程得到大模型的输出结果,并判断是否接收小模型生成的预测字符,从而得到最终生成的文本。本发明的树形推理结构能够利用期望接收概率更高的分叉节点,在增长推测长度的同时期望生成更多的令牌,从而达到加速大模型推理的目的;本发明的动态决定结束条件的设计可以在该方法表现不佳时候更快地结束,相比同类方法有更好的综合性能。

    查询数据的方法、装置、设备及存储介质

    公开(公告)号:CN114706846B

    公开(公告)日:2024-08-09

    申请号:CN202111673409.6

    申请日:2021-12-31

    Applicant: 北京大学

    Inventor: 邹磊

    Abstract: 本申请公开了一种查询数据的方法、装置、设备及存储介质,属于图数据库技术领域。所述方法包括:接收数据查询应用程序发送的数据查询指令,所述数据查询指令中携带有数据查询语句;基于所述数据查询语句的结构,建立所述数据查询语句对应的第一查询树;基于所述第一查询树中各结点的类型,对所述第一查询树进行简化处理,得到第二查询树;基于预设的执行顺序,在图数据库中依次执行所述第二查询树中各结点对应的查询操作,得到数据查询结果;将所述数据查询结果返回至所述数据查询应用程序。采用本申请,能够提高在图数据库中查询数据的效率。

    一种基于“表格-图”两阶段的面向文档级别实体关系联合抽取方法及装置

    公开(公告)号:CN117131868A

    公开(公告)日:2023-11-28

    申请号:CN202310824434.2

    申请日:2023-07-06

    Applicant: 北京大学

    Inventor: 邹磊 张若禹

    Abstract: 本发明涉及一种基于“表格‑图”两阶段的面向文档级别实体关系联合抽取方法及装置。该方法包括编码阶段和解码阶段;所述编码阶段包括:对待处理文本进行分词后,输入训练完成的序列标注模型,进行指代抽取;将指代输入训练完成的“表格‑图”两阶段模型,预测得到共指分数和关系分数;所述解码阶段包括:利用共指分数和关系分数,使用层次聚类方法进行共指消解解码;对于层次聚类方法得到的实体簇,使用众数投票方法进行关系抽取解码。本发明在编码和解码两方面的针对性设计可以有效缓解共指消解和关系抽取这两个子任务之间的错误累积问题,并促进不同子任务之间的语义交换,从而改善信息抽取表现。

Patent Agency Ranking