一种文档字符串编码模糊匹配方法

    公开(公告)号:CN115964457A

    公开(公告)日:2023-04-14

    申请号:CN202111192730.2

    申请日:2021-10-13

    Abstract: 本发明涉及数据处理技术领域,具体公开了一种文档字符串编码模糊匹配方法。该方法包括:构建带有标签的字符串编码信息库;获取文档字符串编码信息,对其进行预处理和特征选择,形成特征集合;对所述特征集合中的特征项进行特征提取,构建编码向量;构建支持向量机分类器,通过所述编码向量对支持向量机进行训练并获得文档编码的分类结果标签;对文档字符串进行模糊匹配时,对所查询的字符串进行划分并添加索引;在字符串编码查询时,进行字符串编码长度过滤及匹配过滤,将所述字符串添加到结果合集中。该方法能够提高文本分类效率和分类准确精度,且能够反映不同长度段落对匹配结果不影响的差异,同时编辑距离验证操作次数较少。

    一种核电厂日常预维项目自动排程方法

    公开(公告)号:CN114662812A

    公开(公告)日:2022-06-24

    申请号:CN202011526283.5

    申请日:2020-12-22

    Abstract: 本发明涉及核电机组预防性维修技术领域,具体公开了一种核电厂日常预维项目自动排程方法。该方法包括:根据任务工单的不同类型进行分类排程;对于非设备预防性维修任务工单,采集所述任务工单中的倒班班次、截止日期和工期参数,进行自动排程;针对设备预防性维修工单任务,采集所述工单任务截止日期参数,进行工单任务排程;完成预防性维修工单任务排程,利用FEG实施窗口及设备运转状态情况对所述排程进行调整。该方法可以节约现有核电厂日常预维项目排程所需大量的工作时间和人力资源,同时,能够减少存在错过实施窗口、任务之间逻辑关系不合理、单日工作量过多等问题,提高核电机组的核安全水平。

    大修预演方法及装置
    6.
    发明公开

    公开(公告)号:CN110866613A

    公开(公告)日:2020-03-06

    申请号:CN201910983113.0

    申请日:2019-10-16

    Abstract: 本发明属于核电维修技术领域,具体涉及一种大修预演方法及装置。该方法包括:针对每个设备,获取该设备被处置或使用的时间段、该设备在每个时间段对应的类型信息,该设备在每个时间段对应的状态信息,或该设备在每个时间段对应的标牌信息;根据设备被处置或使用的时间段、该设备在每个时间段对应的类型信息,该设备在每个时间段对应的状态信息,或该设备在每个时间段对应的标牌信息,确定是否存在冲突;在确定存在冲突时,输出冲突检查结果。本公开实施例能够有效的预测大修过程中存在的冲突,有效辅助工作人员提前识别机组大修中的问题,采取针对措施,强化机组大修的安全管控、保障大修期间维修工作的顺利开展、优化大修工期。

    一种文档自动聚类方法
    8.
    发明公开

    公开(公告)号:CN115982344A

    公开(公告)日:2023-04-18

    申请号:CN202111192689.9

    申请日:2021-10-13

    Abstract: 本发明涉及文本数据挖掘技术领域,具体公开了一种文档自动聚类方法。该方法包括:采集待处理的文档,获取所述文档的文本数据,并进行分词和停用词过滤,获得文本集合特征词汇合集;利用TF‑IDF方法构建空间特征模型,对所述文本集合特征词汇合集进行处理,获得文本特征权重向量;利用改进差分进化算法,对所述文本特征权重向量进行选择和提取,并获得最优特征向量;利用最优特征向量进行聚类,并将所有文档聚类于所设定数目的簇中。本发明能够更好的发现文本集合内在的类别特性,用来发现无结构的文本集合中的“潜在概念”信息,这些信息有助于组织和搜索数量庞大的文档集合;此外本发明在文档处理过程中有效的减少人为的因素影响和人力资源的浪费。

    基于相似度的文档字符串编码匹配方法及装置

    公开(公告)号:CN114168809A

    公开(公告)日:2022-03-11

    申请号:CN202111402289.6

    申请日:2021-11-22

    Abstract: 本公开属于核电技术领域,具体涉及一种基于相似度的文档字符串编码匹配方法及装置。本公开中针对待匹配字符串,根据预设的编码规则生成待匹配字符串对应的正则表达式;针对目标文档,根据编码规则将目标文档的文本内容生成候选字符串集;将候选字符串集中的字符串与正则表达式进行匹配,保留与正则表达式匹配的字符串,滤除与正则表达式不匹配的字符串;采用SimHash算法分别生成保留的字符串以及候选字符串集中每个字符串的SimHash签名,确定保留的字符串的SimHash签名与候选字符串集中每个字符串的SimHash之间的汉明距离,输出汉明距离低于阈值的字符串及该字符串在目标文档中的位置。有效的提高了文档的解析效率,提高了编码模式匹配的速度。

    一种大尺寸复杂pdf工程图纸文本检测与识别方法

    公开(公告)号:CN115035541B

    公开(公告)日:2025-03-14

    申请号:CN202210735421.3

    申请日:2022-06-27

    Abstract: 本发明提供了一种大尺寸复杂pdf工程图纸文本检测与识别方法,包括以下步骤:步骤S1:预处理pdf工程图纸,生成对应的高分辨率图像;步骤S2:将高分辨率图像切割为若干低分辨率的子图,并根据位置记录子图对应顺序;步骤S3:进行第一次子图文本检测,初步定位子图中的文本区域范围,输出范围对应的位置坐标;步骤S4:将子图中的文本区域位置坐标映射到原大图中,去除其中的重复数据,并根据去重后的位置坐标获取对应文本区域图像;步骤S5:进行第二次文本检测,精确定位文本区域中的文本,并裁剪对应的文本块;步骤S6:对文本块进行文本识别,提取文本块中的文本内容,以及对应的坐标位置。本发明提供的方法提高了复杂图纸的文本识别准确率。

Patent Agency Ranking