-
公开(公告)号:CN115982308A
公开(公告)日:2023-04-18
申请号:CN202111191809.3
申请日:2021-10-13
Applicant: 中核核电运行管理有限公司
Abstract: 本发明涉及文本检索技术领域,具体公开了一种字符串编码模糊检索方法。该方法包括:采集获取文档字符串编码,获得相应的分句和分词,建立基于词项分布的倒排索引;构建融合匹配网络,并对所述匹配网络进行训练;将所述文档字符串编码所获得的分句和分词作为融合匹配网络的输入,与已知关键编码进行匹配,并获得匹配结果;将匹配结果,利用所述的倒排索引,来确定包含匹配词项的位置信息,并与所述的匹配结果和置信度一起,共同创建编码结果集,并对原文档中的匹配内容进行标注。本方法具有更好的匹配准确率和鲁棒性,同时,避免了其他检索方法中繁琐的多个处理流程,通过端到端的方式降低了检索时间。
-
公开(公告)号:CN115964481A
公开(公告)日:2023-04-14
申请号:CN202111192698.8
申请日:2021-10-13
Applicant: 中核核电运行管理有限公司
IPC: G06F16/35 , G06F40/216 , G06F40/289
Abstract: 本发明涉及文本数据挖掘技术领域,具体公开了一种文档自动聚类方法。本方法包括:读取待处理的文档,并对文档中的文本内容进行清洗和分词处理,并利用停用词表,对分词进行匹配输出,并对输出结果进行向量化处理,获得高维稀疏文本向量;将文本向量输入自编码器进行编码和译码处理,并通过全局调整函数,提取低维抽象特征向量;根据聚类文档目标,对特征向量进行聚类处理,并直到获得的所有向量簇不再发生变化为止,从中选取最符合目标的向量簇;利用所述向量簇,对文档中的文本数据进行定位输出。本发明具备更高的准确性和更低的运算复杂度,具有更强的实用性和鲁棒性;本方法的计算复杂度较低,具有实用价值以及易用性。
-
公开(公告)号:CN114168808A
公开(公告)日:2022-03-11
申请号:CN202111387759.6
申请日:2021-11-22
Applicant: 中核核电运行管理有限公司
IPC: G06F16/903 , G06F40/126
Abstract: 本公开属于核电技术领域,具体涉及一种基于正则表达式的文档字符串编码识别方法及装置。本公开根据正则表达式确定最佳因子集合;采用CW算法确定出现所述最佳因子集合中的最佳因子的文档记录,并将确定的文档记录添加到候选集合中;根据所述正则表达式确定的DFA自动机对候选集合中的最佳因子的字符串进行验证,将得到成功匹配的字符串。在查询正则表达式的时候定义了一个最佳因子,简化了使用正则表达式来查询的方式。根据最佳因子的个数选择CW算法对提取出来的最佳因子集合快速地查询,有效地过滤掉不包含最佳因子的字符串集合,得到候选字符串,并进一步使用DFA自动机对候选集中的字符串编码进行验证,从而提高整体的查询性能。
-
公开(公告)号:CN114168807A
公开(公告)日:2022-03-11
申请号:CN202111387749.2
申请日:2021-11-22
Applicant: 中核核电运行管理有限公司
IPC: G06F16/903 , G06F40/126
Abstract: 本公开属于核电技术领域,具体涉及一种字符串匹配方法及装置。本公开中,在每读取一页文档的情况下,判断该页文档全部字符在位图对应位的范围内目标数值的个数是否符合所述特定字符串字符的个数,在判断该页文档全部字符在位图对应位的范围内目标数值的个数符合所述特定字符串字符的个数时,根据位图对应位值为目标数值的字符在该页文档中出现的位置,判断该页文档中是否存在特定字符串,本公开运用位图算法的思想,使计算机能够进行快速匹配的同时消耗较小的内存。此外,本公开设计将位图与对应的键值对键值对集合结合起来,达到实现特定字符串匹配的目的。
-
公开(公告)号:CN113988011A
公开(公告)日:2022-01-28
申请号:CN202110951502.2
申请日:2021-08-19
Applicant: 中核核电运行管理有限公司
IPC: G06F40/126 , G06F40/151 , G06F40/30
Abstract: 本公开属于核电技术领域,具体涉及一种文档内容识别方法及装置。本公开根据核电厂的编码特性,设计了一种基于正则匹配的预设编码查找的方法。此方法能快速遍历文档文本内容,查找出文档中所有预设编码。本公开设计了一种基于编码库和编码位置系数的相似度匹配方法,通过编码位置系数的计算将预设编码与编码库中编码库进行相似度匹配,能在高召回率的基础上,以高准确率筛选出符合期望的预设编码。解决核电厂不同类型文档中关键编码的高准确率自动识别和提取的问题。
-
-
-
-