-
公开(公告)号:CN107463666A
公开(公告)日:2017-12-12
申请号:CN201710651487.3
申请日:2017-08-02
Applicant: 成都德尔塔信息科技有限公司
Abstract: 本发明公开了一种基于文本内容的敏感词过滤方法,包括以下步骤:构建中文敏感词库,将中文敏感词库中的中文词向中拼混合词进行扩充,形成中拼混合敏感词库;通过敏感词查找树结构建立确定有限状态自动机中各个敏感词的转换函数,将中拼混合敏感词库中的敏感词构建成敏感词树;根据敏感词树的结构在文本中对敏感词进行检索,对检索到的敏感词使用指定符号进行替换,完成敏感词过滤;本发明查全率高、在实际应用中易于实现。
-
公开(公告)号:CN107463666B
公开(公告)日:2019-12-06
申请号:CN201710651487.3
申请日:2017-08-02
Applicant: 成都德尔塔信息科技有限公司
IPC: G06F16/335 , G06F16/31 , G06F16/9535 , G06F17/27
Abstract: 本发明公开了一种基于文本内容的敏感词过滤方法,包括以下步骤:构建中文敏感词库,将中文敏感词库中的中文词向中拼混合词进行扩充,形成中拼混合敏感词库;通过敏感词查找树结构建立确定有限状态自动机中各个敏感词的转换函数,将中拼混合敏感词库中的敏感词构建成敏感词树;根据敏感词树的结构在文本中对敏感词进行检索,对检索到的敏感词使用指定符号进行替换,完成敏感词过滤;本发明查全率高、在实际应用中易于实现。
-