基于审计风险的文本查重方法、存储介质及电子装置

    公开(公告)号:CN119474330A

    公开(公告)日:2025-02-18

    申请号:CN202411308575.X

    申请日:2024-09-19

    Abstract: 本发明公开了基于审计风险的文本查重方法、存储介质及电子装置,属于文本查重技术领域,包括:S1:根据切片符将待查重审计文档切分成第一文本片段,将第一文本片段输入词向量模型中,获取第一词向量库,根据第一词向量库与词向量模型中的历史文档的第二词向量库生成向量对,基于向量对获取第一文档;S2:基于第一文本片段预设关键词,将第一文档与关键词输入混合模型中进行分析,获取第二文档,计算每个第二文档与关键词之间的语义相似度;S3:基于每个第二文档与关键词之间的语义相似度获取第三文档,基于第三文档获取最终查重结果。解决了由于未获取文本与关键词的语义相似度,同时依赖于目标特征语句,导致查重结果漏报与误报的问题。

Patent Agency Ranking