一种字符串编码模糊检索方法
    1.
    发明公开

    公开(公告)号:CN115982308A

    公开(公告)日:2023-04-18

    申请号:CN202111191809.3

    申请日:2021-10-13

    Abstract: 本发明涉及文本检索技术领域,具体公开了一种字符串编码模糊检索方法。该方法包括:采集获取文档字符串编码,获得相应的分句和分词,建立基于词项分布的倒排索引;构建融合匹配网络,并对所述匹配网络进行训练;将所述文档字符串编码所获得的分句和分词作为融合匹配网络的输入,与已知关键编码进行匹配,并获得匹配结果;将匹配结果,利用所述的倒排索引,来确定包含匹配词项的位置信息,并与所述的匹配结果和置信度一起,共同创建编码结果集,并对原文档中的匹配内容进行标注。本方法具有更好的匹配准确率和鲁棒性,同时,避免了其他检索方法中繁琐的多个处理流程,通过端到端的方式降低了检索时间。

    一种文档字符串内容识别方法
    2.
    发明公开

    公开(公告)号:CN115982419A

    公开(公告)日:2023-04-18

    申请号:CN202111192690.1

    申请日:2021-10-13

    Abstract: 本发明涉及数据信息处理技术领域,具体公开了一种文档字符串内容识别方法。该方法包括:利用Bi‑LSTM‑CRF方法对字符串的编码规则进行分类,构建特定字符串识别模型;构建Bi‑LSTM‑CRF模型,利用特定场景中特定字符串作为字符串编码规则训练集,获得对字符串编码规则分类模型;将文档中的特定字符串与所述字符串编码规则分类模型进行匹配,获得特定字符串的匹配结果;将所述匹配结果与构建的所述特定字符串识别模型进行匹配识别后,生成编码结果集,并在原文档中标注编码。本方法能够在无先验精确编码规则知识前提下,依然能够有效准确识别特定字符串;相比现有的单纯利用字分布式字符串实体识别系统,基于Bi‑LSTM‑CRF模型的实体识别模型取得更好表现,具有更好的准确性。

    基于相似度的文档字符串编码匹配方法及装置

    公开(公告)号:CN114168809A

    公开(公告)日:2022-03-11

    申请号:CN202111402289.6

    申请日:2021-11-22

    Abstract: 本公开属于核电技术领域,具体涉及一种基于相似度的文档字符串编码匹配方法及装置。本公开中针对待匹配字符串,根据预设的编码规则生成待匹配字符串对应的正则表达式;针对目标文档,根据编码规则将目标文档的文本内容生成候选字符串集;将候选字符串集中的字符串与正则表达式进行匹配,保留与正则表达式匹配的字符串,滤除与正则表达式不匹配的字符串;采用SimHash算法分别生成保留的字符串以及候选字符串集中每个字符串的SimHash签名,确定保留的字符串的SimHash签名与候选字符串集中每个字符串的SimHash之间的汉明距离,输出汉明距离低于阈值的字符串及该字符串在目标文档中的位置。有效的提高了文档的解析效率,提高了编码模式匹配的速度。

    基于相似度的文档字符串编码匹配方法及装置

    公开(公告)号:CN114168809B

    公开(公告)日:2024-08-09

    申请号:CN202111402289.6

    申请日:2021-11-22

    Abstract: 本公开属于核电技术领域,具体涉及一种基于相似度的文档字符串编码匹配方法及装置。本公开中针对待匹配字符串,根据预设的编码规则生成待匹配字符串对应的正则表达式;针对目标文档,根据编码规则将目标文档的文本内容生成候选字符串集;将候选字符串集中的字符串与正则表达式进行匹配,保留与正则表达式匹配的字符串,滤除与正则表达式不匹配的字符串;采用SimHash算法分别生成保留的字符串以及候选字符串集中每个字符串的SimHash签名,确定保留的字符串的SimHash签名与候选字符串集中每个字符串的SimHash之间的汉明距离,输出汉明距离低于阈值的字符串及该字符串在目标文档中的位置。有效的提高了文档的解析效率,提高了编码模式匹配的速度。

    一种文档字符串编码模糊匹配方法

    公开(公告)号:CN115964457A

    公开(公告)日:2023-04-14

    申请号:CN202111192730.2

    申请日:2021-10-13

    Abstract: 本发明涉及数据处理技术领域,具体公开了一种文档字符串编码模糊匹配方法。该方法包括:构建带有标签的字符串编码信息库;获取文档字符串编码信息,对其进行预处理和特征选择,形成特征集合;对所述特征集合中的特征项进行特征提取,构建编码向量;构建支持向量机分类器,通过所述编码向量对支持向量机进行训练并获得文档编码的分类结果标签;对文档字符串进行模糊匹配时,对所查询的字符串进行划分并添加索引;在字符串编码查询时,进行字符串编码长度过滤及匹配过滤,将所述字符串添加到结果合集中。该方法能够提高文本分类效率和分类准确精度,且能够反映不同长度段落对匹配结果不影响的差异,同时编辑距离验证操作次数较少。

Patent Agency Ranking