基于迁移学习的互联网垃圾信息检测方法及系统

    公开(公告)号:CN112905794B

    公开(公告)日:2023-01-06

    申请号:CN202110205954.6

    申请日:2021-02-24

    Inventor: 刘立峰 王旭颖

    Abstract: 本发明公开了基于迁移学习的互联网垃圾信息检测方法及系统,该方法包括以下步骤:对带标记的第一语料进行预处理,得到相应的第一词向量序列,预训练BERT模型;构建垃圾信息检测模型,包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理后,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。本发明减少了训练所需的有标签的第二语料的数据量,缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。

    基于迁移学习的互联网垃圾信息检测方法及系统

    公开(公告)号:CN112905794A

    公开(公告)日:2021-06-04

    申请号:CN202110205954.6

    申请日:2021-02-24

    Inventor: 刘立峰 王旭颖

    Abstract: 本发明公开了基于迁移学习的互联网垃圾信息检测方法及系统,该方法包括以下步骤:对带标记的第一语料进行预处理,得到相应的第一词向量序列,预训练BERT模型;构建垃圾信息检测模型,包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理后,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。本发明减少了训练所需的有标签的第二语料的数据量,缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。

Patent Agency Ranking