-
公开(公告)号:CN111209373A
公开(公告)日:2020-05-29
申请号:CN202010012173.0
申请日:2020-01-07
Applicant: 北京启明星辰信息安全技术有限公司 , 中国信息安全测评中心
Abstract: 一种基于自然语义的敏感文本识别方法和装置,其中方法包括:获取海量语料词向量库;对样本文档进行分词;对样本文档进行逐词向量化,修正所述海量语料向量库,建立小语料词向量库;对样本文档进行向量化分析,提取样本文档指纹特征;对待测文档依序进行分词、逐词向量化、以及文档向量化分析,得到其指纹特征;对待测文档与样本文档进行指纹特征对比,识别出敏感的待测文档。该方法和装置具有漏报率低,不易被规避,识别效率高等优点。