一种自动聚类的调证数据快速识别方法和系统

    公开(公告)号:CN116401589A

    公开(公告)日:2023-07-07

    申请号:CN202310210510.0

    申请日:2023-03-07

    Abstract: 本发明提出了一种自动聚类的调证数据快速识别方法,该方法包括如下步骤:响应于建立XML语言的自定义标签的模板库;基于建立的所述模板库进行语料库的提取;将待导入文件基于提取的所述语料库进行文件TF‑IDF特征计算并提取特征,并将相同特征的文件分为一类,完成文件的自动分类;进一步进行文件模板的匹配,若匹配到模板则将匹配结果进行入库操作,否则结束。提出一种基于扩展标签模板库,同时依赖语料库完成待识别文件的特征值计算,从而完成文件集的自动分类,依托自动分类和特征值结果缓存技术,实现大量复杂文本文件的自动识别和导入的算法和完整系统解决方案,大大提升了模板识别速度和性能。

Patent Agency Ranking