-
公开(公告)号:CN112651244B
公开(公告)日:2022-12-09
申请号:CN202011566711.7
申请日:2020-12-25
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/33 , G06F8/30
Abstract: 本发明提供了一种基于论文摘要QA的TopK实体抽取方法与系统,该方法包括数据获取与处理步骤:从数据库中获取相关领域的所有论文,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;训练相似度模型步骤:进行文本相似度模型训练;构建ES索引步骤:将dbace实体集中的每个实体经过stem处理;检索实体步骤:将论文摘要QA句子送入ES中进行查询;实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,并计算实体长度和复杂度;训练LTR模型步骤:选取部分文章的实体列表进行人工标注;结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序。本发明能够使得论文知识图谱构建变得快速、简单、可靠。
-
公开(公告)号:CN112651244A
公开(公告)日:2021-04-13
申请号:CN202011566711.7
申请日:2020-12-25
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/33 , G06F8/30
Abstract: 本发明提供了一种基于论文摘要QA的TopK实体抽取方法与系统,该方法包括数据获取与处理步骤:从数据库中获取相关领域的所有论文,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;训练相似度模型步骤:进行文本相似度模型训练;构建ES索引步骤:将dbace实体集中的每个实体经过stem处理;检索实体步骤:将论文摘要QA句子送入ES中进行查询;实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,并计算实体长度和复杂度;训练LTR模型步骤:选取部分文章的实体列表进行人工标注;结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序。本发明能够使得论文知识图谱构建变得快速、简单、可靠。
-