-
公开(公告)号:CN115828854B
公开(公告)日:2023-05-02
申请号:CN202310126466.5
申请日:2023-02-17
Applicant: 东南大学
IPC: G06F40/134 , G06F40/169 , G06F40/177 , G06F40/205 , G06F40/232 , G06F16/951 , G06F16/903 , G06F16/335 , G06F16/36 , G06F18/22
Abstract: 一种基于上下文消歧的高效表格实体链接方法,首先,对表格数据进行结构分析,提取主题列索引与非主题列索引。其次,通过搜索引擎抓取的网页标题来过滤表格单元格噪声,实现拼写纠错。然后,查询知识图谱以获得实体链接的候选实体,并为每个表格额外转储一份预处理文件。接着,基于非主题列单元格与知识图谱中实体属性值间的相似度对候选实体进行初步评分,最后,根据候选实体排序结果得到表格数据在知识图谱中的对应实体,即得到表格实体链接结果。本发明具有优秀的实体链接性能和高效的实体查询效率,能有效解决大规模表格数据的实体链接问题。
-
公开(公告)号:CN115828854A
公开(公告)日:2023-03-21
申请号:CN202310126466.5
申请日:2023-02-17
Applicant: 东南大学
IPC: G06F40/134 , G06F40/169 , G06F40/177 , G06F40/205 , G06F40/232 , G06F16/951 , G06F16/903 , G06F16/335 , G06F16/36 , G06F18/22
Abstract: 一种基于上下文消歧的高效表格实体链接方法,首先,对表格数据进行结构分析,提取主题列索引与非主题列索引。其次,通过搜索引擎抓取的网页标题来过滤表格单元格噪声,实现拼写纠错。然后,查询知识图谱以获得实体链接的候选实体,并为每个表格额外转储一份预处理文件。接着,基于非主题列单元格与知识图谱中实体属性值间的相似度对候选实体进行初步评分,最后,根据候选实体排序结果得到表格数据在知识图谱中的对应实体,即得到表格实体链接结果。本发明具有优秀的实体链接性能和高效的实体查询效率,能有效解决大规模表格数据的实体链接问题。
-