-
公开(公告)号:CN112905794B
公开(公告)日:2023-01-06
申请号:CN202110205954.6
申请日:2021-02-24
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明公开了基于迁移学习的互联网垃圾信息检测方法及系统,该方法包括以下步骤:对带标记的第一语料进行预处理,得到相应的第一词向量序列,预训练BERT模型;构建垃圾信息检测模型,包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理后,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。本发明减少了训练所需的有标签的第二语料的数据量,缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。
-
公开(公告)号:CN112905794A
公开(公告)日:2021-06-04
申请号:CN202110205954.6
申请日:2021-02-24
Applicant: 珠海高凌信息科技股份有限公司
Abstract: 本发明公开了基于迁移学习的互联网垃圾信息检测方法及系统,该方法包括以下步骤:对带标记的第一语料进行预处理,得到相应的第一词向量序列,预训练BERT模型;构建垃圾信息检测模型,包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理后,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。本发明减少了训练所需的有标签的第二语料的数据量,缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。
-