-
公开(公告)号:CN117932134A
公开(公告)日:2024-04-26
申请号:CN202310975209.9
申请日:2023-08-03
Applicant: 中国舰船研究设计中心
IPC: G06F16/951 , G06F16/31 , G06F16/33 , G06F16/36
Abstract: 本发明公开了一种使用词条内容递归爬取词条数据的方法,包括以下步骤:1)对船舶知识库中的数据建立倒排索引表;2)从倒排索引表集群中检索出请求问题的关键词条;3)对检索出的关键词条,使用数据爬虫进行词条的爬取;4)对数据爬虫输出的文本进行格式的统一;5)对统一后的文本进行筛选;6)对粗排的文本选择前列设定数量文本进行二次筛选,返回二次筛选后的文本;7)进行三元组抽取;8)对冲突三元组进行纠错与知识融合;9)根据处理后的三元组获得知识抽取后的知识图谱。本发明方法可以从结构化数据、半结构化数据、非结构化数据中抽取词条,借助使用词条内容递归爬取词条数据的方法,用机器基本代替人工实现自动化知识扩充。
-
公开(公告)号:CN117610573A
公开(公告)日:2024-02-27
申请号:CN202311640997.2
申请日:2023-11-30
Applicant: 中国舰船研究设计中心
IPC: G06F40/295 , G06F16/901 , G06F16/903 , G06F40/126 , G06F40/279 , G06N5/02 , G06N3/0455 , G06N3/048 , G06N3/047
Abstract: 本发明公开了一种基于实体链接表的实体识别方法,包括以下步骤:1)获取知识库中的非结构化、半结构化和结构化数据在内的多种数据源;2)整合异构数据源,对于整合后的实体名称,中文名称按字切分,英文名称按词切分,并且根据切分的结果生成ac树、倒排表、tfidf的权重以及实体链接表;3)对输入文本序列信息进行处理;4)使用实体链接表PromptIE模型对不同数据源的文本进行统一编码,对句子中已匹配的实体与句子进行实体识别,抽取实体知识。本发明方法可以从多种数据来源进行实体识别,而无需针对某种数据类型修改模型。
-
公开(公告)号:CN117235274A
公开(公告)日:2023-12-15
申请号:CN202310975138.2
申请日:2023-08-03
Applicant: 中国舰船研究设计中心
Abstract: 本发明公开了一种基于倒排表的领域知识抽取方法,包括以下步骤:1)对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射;2)基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的候选知识;3)对检索出的候选知识,进行对候选知识的排序;4)对排序后的TopN候选知识进行三元组抽取;5)对抽取的三元组中的冲突三元组进行纠错与知识融合;6)根据处理后的三元组获得知识抽取后的知识图谱。本发明通过缩小候选知识范围,快速从知识库中抽取知识,提高系统响应速度。
-
公开(公告)号:CN117077783A
公开(公告)日:2023-11-17
申请号:CN202310977291.9
申请日:2023-08-03
Applicant: 中国舰船研究设计中心
IPC: G06N5/025 , G06F16/31 , G06F16/335 , G06F16/35
Abstract: 本发明公开了一种用于知识库的两步知识抽取方法,包括以下步骤:对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射;基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的候选知识;对检索出的候选知识,进行对知识的粗排操作;对粗排的候选知识选择前列候选知识进行精排操作,返回再次筛选后的候选知识;对排序后的TopN候选知识进行三元组抽取;对抽取的三元组中的冲突三元组进行纠错与知识融合;根据处理后的三元组获得知识抽取后的知识图谱。本发明通过二次筛选缩小候选知识范围,快速从知识库中抽取知识,提高系统响应速度。
-
-
-