基于聚类模型的敏感文件识别处置方法及系统

    公开(公告)号:CN117610037A

    公开(公告)日:2024-02-27

    申请号:CN202311549216.9

    申请日:2023-11-17

    Inventor: 刘雨 张少校 邓磊

    Abstract: 本发明提供了一种基于聚类模型的敏感文件识别处置方法及系统,属于数据处理技术领域。所述方法,包括:对获取的待检测文件数据依次进行文本提取、分词处理和清洗处理;对清洗处理后的文本进行特征提取,对提取到的特征进行聚类,相似的文件被分为同一群组;通过相似性检测识别包含敏感信息的类簇,对识别到的类簇中的文件进行加密处理,并生成告警信息。本发明能够自动发现和分类敏感文件,无需手动规则或关键词列表,极大的提高了敏感文件识别的效率和精度,实现了敏感文件的自动识别、自动加密和自动告警。

Patent Agency Ranking