一种基于时序路径自动维护的时序知识图谱推理方法和系统

    公开(公告)号:CN116484016B

    公开(公告)日:2024-08-13

    申请号:CN202310328740.7

    申请日:2023-03-30

    Abstract: 本发明涉及一种基于时序路径自动维护的时序知识图谱推理方法和系统,面向时序知识图谱推理任务,利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。该发明首先定义了跨时间的时序路径,然后提供一种能够自动建模维护查询实体与每个候选实体之间历史局部时序路径的方法,最后提出一种跨越时间线的路径语义传递策略用于整合历史时间线上的每一历史时刻的局部时序路径,得到最终的全局时序路径,用于未来下一时刻的图谱事实推理。本发明能够直接将学习到的时序路径表示用于未来时刻的知识图谱事实预测,能够利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。

    一种基于超大规模语言模型的富语义标签数据增广方法

    公开(公告)号:CN117494760A

    公开(公告)日:2024-02-02

    申请号:CN202311320484.3

    申请日:2023-10-12

    Abstract: 本发明公开了一种基于超大规模语言模型的富语义标签数据增广方法。本方法为:1)从若干个数据集中获取学科文本数据,组成一学科数据库;遍历学科数据库中每一数据样本,将具有相同分类号的数据样本划分到层次学科结构采样树的同一节点中,根据分类号确定各节点的位置,构建出层次学科结构采样树并计算每一节点的统计信息;2)确定每一学科分类的增强样本数;3)根据每一学科分类的增强样本数更新层次学科结构采样树,并计算每一节点的统计信息;4)根据每一节点更新前后的统计信息,判断各学科分类对应的样本数量是否平衡,如果不平衡则重复步骤2~3);5)利用超大规模语言模型为每一学科分类生成相应数量的对应学科分类的数据样本。

    一种基于时序路径自动维护的时序知识图谱推理方法和系统

    公开(公告)号:CN116484016A

    公开(公告)日:2023-07-25

    申请号:CN202310328740.7

    申请日:2023-03-30

    Abstract: 本发明涉及一种基于时序路径自动维护的时序知识图谱推理方法和系统,面向时序知识图谱推理任务,利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。该发明首先定义了跨时间的时序路径,然后提供一种能够自动建模维护查询实体与每个候选实体之间历史局部时序路径的方法,最后提出一种跨越时间线的路径语义传递策略用于整合历史时间线上的每一历史时刻的局部时序路径,得到最终的全局时序路径,用于未来下一时刻的图谱事实推理。本发明能够直接将学习到的时序路径表示用于未来时刻的知识图谱事实预测,能够利用具有时间信息的历史时序知识图谱序列预测未来时刻知识图谱缺失的事实信息。

    一种基于LightGBM分类与表示学习的姓名消歧方法和系统

    公开(公告)号:CN113962293B

    公开(公告)日:2022-10-14

    申请号:CN202111153524.0

    申请日:2021-09-29

    Abstract: 本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。

    一种基于LightGBM分类与表示学习的姓名消歧方法和系统

    公开(公告)号:CN113962293A

    公开(公告)日:2022-01-21

    申请号:CN202111153524.0

    申请日:2021-09-29

    Abstract: 本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。

    基于图局部结构和文本语义相似性的学术论文推荐方法

    公开(公告)号:CN112069290A

    公开(公告)日:2020-12-11

    申请号:CN202010730690.1

    申请日:2020-07-27

    Abstract: 本发明公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为:1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;2)对于论文pi,基于该异质网络计算与论文pi有关联的论文相似度,形成一推荐结果候选集;3)生成论文库中每一论文的关系表征向量和语义表征向量,并加权求和得到对应论文的最终表征向量;将论文pi加入到该论文库中并生成论文pi的最终表征向量;4)计算论文库中每一论文的最终表征向量与论文pi的最终表征向量的相似性,并根据所得相似性选取多个论文作为论文pi的待推荐候选论文;5)将推荐结果候选集与待推荐候选论文进行融合,选取相似性最高的若干论文作为论文pi的推荐论文。

    一种基于作者著作树和图神经网络的论文合作者推荐方法

    公开(公告)号:CN112069306B

    公开(公告)日:2022-09-09

    申请号:CN202010710086.2

    申请日:2020-07-22

    Abstract: 本发明公开了一种基于作者著作树和图神经网络的论文合作者推荐方法,其步骤包括:1)对于数据库中的每一个作者,收集该作者的论文并提取关键词信息,构建该作者的著作树;2)对每个著作树,基于图神经网络模型构建对应作者著作树的信息传播模型,将著作树上的论文信息和关键词信息传播到作者节点中,编码出对应作者初始的表征向量;3)从该数据库中抽取出所有合作过的作者对集合,训练信息传播模型的参数,优化各初始表征向量,得到各作者最终的表征向量;4)对于一需推荐合作者的论文A,遍历与论文A的作者未曾合作过的作者集合N;然后比较作者A与集合N中每一作者最终的表征向量余弦相似度,根据计算结果为论文A的作者推荐合作者。

Patent Agency Ranking