-
公开(公告)号:CN116186133A
公开(公告)日:2023-05-30
申请号:CN202211729747.1
申请日:2022-12-30
Applicant: 苏州空天信息研究院
IPC: G06F16/25 , G06F16/22 , G06F16/28 , G06F16/2457 , G06F16/31 , G06F16/335
Abstract: 本发明提出了一种融合正排与倒排索引的电子文档管理方法,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,并封装统一的数据库API对两种数据库进行融合引接;电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。本发明既满足了电子文档管理的结构化管理及存储功能,又实现了海量文本内容的高效检索功能。
-
公开(公告)号:CN118193738A
公开(公告)日:2024-06-14
申请号:CN202410359544.0
申请日:2024-03-27
Applicant: 苏州空天信息研究院
IPC: G06F16/35 , G06F40/151 , G06F40/169 , G06F40/205 , G06F18/214 , G06F18/22 , G06F18/23213 , G06F18/241
Abstract: 本发明公开了一种基于聚类算法的小样本事件要素智能抽取方法,采用Word2Vec模型对文本数据进行向量化处理,所述文本数据包含已标注的文本数据和未标注的文本数据;利用K‑means算法对向量化后的样本进行聚类,依据文本向量之间的相似度将样本划分为K个类簇,以每个簇的中心作为该簇的代表;利用信息熵计算每个类簇中的每个样本在该类簇中的相似度权重,选取信息熵相似度权重最高的多个样本作为该类簇的代表性样本,每个类簇的代表性样本构成一个初始训练样本集;构建训练各初始训练样本集对应的子分类器UIE‑F,在每轮迭代中,根据分类器的预测结果和选定样本进行标注,以增量学习的方式不断优化分类器。本发明提高了事件抽取方法在小样本条件下的性能,也提高了事件要素抽取的泛用性和准确性。
-
公开(公告)号:CN117648928A
公开(公告)日:2024-03-05
申请号:CN202311622168.1
申请日:2023-11-30
Applicant: 苏州空天信息研究院
IPC: G06F40/295 , G06F16/36 , G06N3/0442 , G06N3/08
Abstract: 本公开提供了一种命名实体识别方法和命名实体识别装置,该方法包括:对待处理文本进行语种识别,得到语种识别结果;在待处理文本为中文文本的情况下,分别利用多个中文命名实体识别方法处理待处理文本,得到多个中文命名实体识别结果;在多个中文命名实体识别结果中初始中文类别信息不相同的情况下,将与优先等级最高的中文命名实体识别方法对应的中文命名实体识别结果中初始中文类别信息确定为初始中文命名实体的目标中文类别信息;针对多个中文命名实体识别结果中相关联的初始中文命名实体,对多个相关联的初始中文命名实体进行融合处理,得到融合结果;根据融合结果、目标中文类别信息和多个中文命名实体识别结果,生成目标中文识别结果。
-
-