一种使用词条内容递归爬取词条数据的方法

    公开(公告)号:CN117932134A

    公开(公告)日:2024-04-26

    申请号:CN202310975209.9

    申请日:2023-08-03

    Abstract: 本发明公开了一种使用词条内容递归爬取词条数据的方法,包括以下步骤:1)对船舶知识库中的数据建立倒排索引表;2)从倒排索引表集群中检索出请求问题的关键词条;3)对检索出的关键词条,使用数据爬虫进行词条的爬取;4)对数据爬虫输出的文本进行格式的统一;5)对统一后的文本进行筛选;6)对粗排的文本选择前列设定数量文本进行二次筛选,返回二次筛选后的文本;7)进行三元组抽取;8)对冲突三元组进行纠错与知识融合;9)根据处理后的三元组获得知识抽取后的知识图谱。本发明方法可以从结构化数据、半结构化数据、非结构化数据中抽取词条,借助使用词条内容递归爬取词条数据的方法,用机器基本代替人工实现自动化知识扩充。

    一种基于实体链接表的实体识别方法

    公开(公告)号:CN117610573A

    公开(公告)日:2024-02-27

    申请号:CN202311640997.2

    申请日:2023-11-30

    Abstract: 本发明公开了一种基于实体链接表的实体识别方法,包括以下步骤:1)获取知识库中的非结构化、半结构化和结构化数据在内的多种数据源;2)整合异构数据源,对于整合后的实体名称,中文名称按字切分,英文名称按词切分,并且根据切分的结果生成ac树、倒排表、tfidf的权重以及实体链接表;3)对输入文本序列信息进行处理;4)使用实体链接表PromptIE模型对不同数据源的文本进行统一编码,对句子中已匹配的实体与句子进行实体识别,抽取实体知识。本发明方法可以从多种数据来源进行实体识别,而无需针对某种数据类型修改模型。

    一种基于倒排表的领域知识抽取方法

    公开(公告)号:CN117235274A

    公开(公告)日:2023-12-15

    申请号:CN202310975138.2

    申请日:2023-08-03

    Abstract: 本发明公开了一种基于倒排表的领域知识抽取方法,包括以下步骤:1)对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射;2)基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的候选知识;3)对检索出的候选知识,进行对候选知识的排序;4)对排序后的TopN候选知识进行三元组抽取;5)对抽取的三元组中的冲突三元组进行纠错与知识融合;6)根据处理后的三元组获得知识抽取后的知识图谱。本发明通过缩小候选知识范围,快速从知识库中抽取知识,提高系统响应速度。

    一种用于知识库的两步知识抽取方法

    公开(公告)号:CN117077783A

    公开(公告)日:2023-11-17

    申请号:CN202310977291.9

    申请日:2023-08-03

    Abstract: 本发明公开了一种用于知识库的两步知识抽取方法,包括以下步骤:对船舶知识库中的非结构化、半结构化和结构化数据建立倒排索引表;倒排索引表存储单词在文档中的位置映射;基于轮询的负载均衡算法,从倒排索引表集群中检索出请求问题的候选知识;对检索出的候选知识,进行对知识的粗排操作;对粗排的候选知识选择前列候选知识进行精排操作,返回再次筛选后的候选知识;对排序后的TopN候选知识进行三元组抽取;对抽取的三元组中的冲突三元组进行纠错与知识融合;根据处理后的三元组获得知识抽取后的知识图谱。本发明通过二次筛选缩小候选知识范围,快速从知识库中抽取知识,提高系统响应速度。

Patent Agency Ranking