基于图局部结构和文本语义相似性的学术论文推荐方法

    公开(公告)号:CN112069290B

    公开(公告)日:2022-07-12

    申请号:CN202010730690.1

    申请日:2020-07-27

    Abstract: 本发明公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为:1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;2)对于论文pi,基于该异质网络计算与论文pi有关联的论文相似度,形成一推荐结果候选集;3)生成论文库中每一论文的关系表征向量和语义表征向量,并加权求和得到对应论文的最终表征向量;将论文pi加入到该论文库中并生成论文pi的最终表征向量;4)计算论文库中每一论文的最终表征向量与论文pi的最终表征向量的相似性,并根据所得相似性选取多个论文作为论文pi的待推荐候选论文;5)将推荐结果候选集与待推荐候选论文进行融合,选取相似性最高的若干论文作为论文pi的推荐论文。

    基于图局部结构和文本语义相似性的学术论文推荐方法

    公开(公告)号:CN112069290A

    公开(公告)日:2020-12-11

    申请号:CN202010730690.1

    申请日:2020-07-27

    Abstract: 本发明公开了一种基于图局部结构和文本语义相似性的学术论文推荐方法。本方法为:1)基于论文库中论文的关键词、机构、作者特征构建包含论文和论文关系的异质网络;2)对于论文pi,基于该异质网络计算与论文pi有关联的论文相似度,形成一推荐结果候选集;3)生成论文库中每一论文的关系表征向量和语义表征向量,并加权求和得到对应论文的最终表征向量;将论文pi加入到该论文库中并生成论文pi的最终表征向量;4)计算论文库中每一论文的最终表征向量与论文pi的最终表征向量的相似性,并根据所得相似性选取多个论文作为论文pi的待推荐候选论文;5)将推荐结果候选集与待推荐候选论文进行融合,选取相似性最高的若干论文作为论文pi的推荐论文。

    一种基于异质网络嵌入的学者名字消歧方法

    公开(公告)号:CN109558494A

    公开(公告)日:2019-04-02

    申请号:CN201811267181.9

    申请日:2018-10-29

    Abstract: 本发明公开了一种基于异质网络嵌入的学者名字消歧方法,其步骤为:1)设定多个需要消歧的作者,收集所有与设定需要消歧的作者相关的论文,然后利用所收集论文的作者和论文的语义信息生成论文关系异质网络;2)根据论文关系异质网络,通过基于元路径随机游走策略生成包含论文节点邻居节点文本信息的路径,并将这些路径保存为训练语料库;3)利用Skip-gram模型对训练语料库进行训练,生成每一论文对应的论文表征向量;4)对于步骤1)中一设定需要消歧的作者,从得到的论文表征向量中获取该作者的论文对应的论文表征向量;5)对步骤4)得到的论文表征向量进行聚类,得到若干簇,实现对该作者名字的消歧。

    一种基于作者著作树和图神经网络的论文合作者推荐方法

    公开(公告)号:CN112069306B

    公开(公告)日:2022-09-09

    申请号:CN202010710086.2

    申请日:2020-07-22

    Abstract: 本发明公开了一种基于作者著作树和图神经网络的论文合作者推荐方法,其步骤包括:1)对于数据库中的每一个作者,收集该作者的论文并提取关键词信息,构建该作者的著作树;2)对每个著作树,基于图神经网络模型构建对应作者著作树的信息传播模型,将著作树上的论文信息和关键词信息传播到作者节点中,编码出对应作者初始的表征向量;3)从该数据库中抽取出所有合作过的作者对集合,训练信息传播模型的参数,优化各初始表征向量,得到各作者最终的表征向量;4)对于一需推荐合作者的论文A,遍历与论文A的作者未曾合作过的作者集合N;然后比较作者A与集合N中每一作者最终的表征向量余弦相似度,根据计算结果为论文A的作者推荐合作者。

    无监督的基于表示学习的同名作者消歧方法及装置

    公开(公告)号:CN113111178B

    公开(公告)日:2021-12-10

    申请号:CN202110240824.6

    申请日:2021-03-04

    Abstract: 本发明公开了一种无监督的基于表示学习的同名作者消歧方法及装置,包括:对科学文献数据进行预处理;利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量;通过对消歧数据的处理生成局部异质网络,指定元路径metapath并利用metapath2vec方法获取基于局部图结构的论文关系表示向量;针对上述三种表征向量分别生成相似度矩阵并进行加权求和;利用无监督聚类方法进行聚类;对聚类离散点进行簇指派,得到最终消歧结果。本发明利用论文的表征信息,结合多重混合的表征学习和聚类离散点指派方法,增强消歧算法的泛化能力与鲁棒性,提高了消歧准确度与消歧效率。

    无监督的基于表示学习的同名作者消歧方法及装置

    公开(公告)号:CN113111178A

    公开(公告)日:2021-07-13

    申请号:CN202110240824.6

    申请日:2021-03-04

    Abstract: 本发明公开了一种无监督的基于表示学习的同名作者消歧方法及装置,包括:对科学文献数据进行预处理;利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量;通过对消歧数据的处理生成局部异质网络,指定元路径metapath并利用metapath2vec方法获取基于局部图结构的论文关系表示向量;针对上述三种表征向量分别生成相似度矩阵并进行加权求和;利用无监督聚类方法进行聚类;对聚类离散点进行簇指派,得到最终消歧结果。本发明利用论文的表征信息,结合多重混合的表征学习和聚类离散点指派方法,增强消歧算法的泛化能力与鲁棒性,提高了消歧准确度与消歧效率。

    一种基于作者著作树和图神经网络的论文合作者推荐方法

    公开(公告)号:CN112069306A

    公开(公告)日:2020-12-11

    申请号:CN202010710086.2

    申请日:2020-07-22

    Abstract: 本发明公开了一种基于作者著作树和图神经网络的论文合作者推荐方法,其步骤包括:1)对于数据库中的每一个作者,收集该作者的论文并提取关键词信息,构建该作者的著作树;2)对每个著作树,基于图神经网络模型构建对应作者著作树的信息传播模型,将著作树上的论文信息和关键词信息传播到作者节点中,编码出对应作者初始的表征向量;3)从该数据库中抽取出所有合作过的作者对集合,训练信息传播模型的参数,优化各初始表征向量,得到各作者最终的表征向量;4)对于一需推荐合作者的论文A,遍历与论文A的作者未曾合作过的作者集合N;然后比较作者A与集合N中每一作者最终的表征向量余弦相似度,根据计算结果为论文A的作者推荐合作者。

    一种可利用专家知识的申请书多标签层次分类方法

    公开(公告)号:CN113761197B

    公开(公告)日:2022-07-26

    申请号:CN202110866392.X

    申请日:2021-07-29

    Abstract: 本发明公开了一种可利用专家知识的申请书多标签层次分类方法,其步骤包括:1)对于申请书中的各类别文本数据,分别抽取每一所述文本数据中各类别的文本信息;对每一所述文本数据进行编码后添加对应的类别编码并发送给词等级的编码器,得到表征向量;2)将每一文本数据对应的表征向量输入文档等级的编码器,得到申请书的表征向量;3)利用申请书的表征向量与初始化的预测信息,预测申请书在学科体系的第n层级的标签;4)基于申请书在学科体系的第n层级的预测标签和申请书的表征向量,预测申请书在学科体系的第n+1层级的标签;5)如果当前层级为学科体系的最后层级则完成预测,得到最细粒度标签;否则返回步骤4),进行下一层级预测。

    一种可利用专家知识的申请书多标签层次分类方法

    公开(公告)号:CN113761197A

    公开(公告)日:2021-12-07

    申请号:CN202110866392.X

    申请日:2021-07-29

    Abstract: 本发明公开了一种可利用专家知识的申请书多标签层次分类方法,其步骤包括:1)对于申请书中的各类别文本数据,分别抽取每一所述文本数据中各类别的文本信息;对每一所述文本数据进行编码后添加对应的类别编码并发送给词等级的编码器,得到表征向量;2)将每一文本数据对应的表征向量输入文档等级的编码器,得到申请书的表征向量;3)利用申请书的表征向量与初始化的预测信息,预测申请书在学科体系的第n层级的标签;4)基于申请书在学科体系的第n层级的预测标签和申请书的表征向量,预测申请书在学科体系的第n+1层级的标签;5)如果当前层级为学科体系的最后层级则完成预测,得到最细粒度标签;否则返回步骤4),进行下一层级预测。

    一种基于网络表征和语义表征的同名作者消歧方法

    公开(公告)号:CN111191466A

    公开(公告)日:2020-05-22

    申请号:CN201911352416.9

    申请日:2019-12-25

    Abstract: 本发明公开了一种基于网络表征和语义表征的同名作者消歧方法。本方法为:1)提取目标论文库中各论文的语义特征和离散特征;2)基于离散特征计算各论文间的相似度,得到论文的关系相似性矩阵;如果一论文与其他论文没有共同作者或机构,则将其加入一离群论文集中;3)基于各论文的所述语义特征计算论文的语义相似度矩阵;将目标论文库中不包含语义特征的论文加入离群论文集中;4)将关系相似性矩阵和语义相似度矩阵加权求和,获得论文相似度矩阵并对其进行聚类;将不属于任何簇的论文加入离群论文集中;5)利用基于相似度阈值匹配的方法将离群论文集中的论文分配到对应的簇中。本发明实现高准确率的论文同名作者的消歧。

Patent Agency Ranking