基于迁移学习的互联网垃圾信息检测方法及系统

    公开(公告)号:CN112905794B

    公开(公告)日:2023-01-06

    申请号:CN202110205954.6

    申请日:2021-02-24

    Inventor: 刘立峰 王旭颖

    Abstract: 本发明公开了基于迁移学习的互联网垃圾信息检测方法及系统,该方法包括以下步骤:对带标记的第一语料进行预处理,得到相应的第一词向量序列,预训练BERT模型;构建垃圾信息检测模型,包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理后,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。本发明减少了训练所需的有标签的第二语料的数据量,缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。

    目标风险网站检测方法、装置及存储介质

    公开(公告)号:CN115470488A

    公开(公告)日:2022-12-13

    申请号:CN202211045603.4

    申请日:2022-08-30

    Abstract: 本发明公开了一种目标风险网站检测方法、装置及存储介质,其中该方法包括:爬取待检测网站的第一信息,其中,第一信息包括网页快照、网站源码和网站文本;通过预先训练的BERT模型对网站源码和网站文本进行特征提取,得到网站源码特征信息和网站文本特征信息;通过预先训练的ResNet模型对网页快照进行特征提取,得到网页快照特征信息;基于网站源码特征信息、网站文本特征信息、网页快照特征信息,通过预先训练的目标风险网站检测模型判断待检测网站是否为目标风险网站。以实现以数据为主导的对目标风险网站的检测功能。本发明可广泛应用于风险网站检测领域。

    有害短信分析方法、装置和存储介质

    公开(公告)号:CN115455977A

    公开(公告)日:2022-12-09

    申请号:CN202210926234.3

    申请日:2022-08-03

    Abstract: 本申请公开了有害短信分析方法、装置和存储介质,包括对中文语料进行预处理,获得不同的所述中文语料对应的不同序列;使用盘古模型提取每个序列的词嵌入向量;采用LSTM对所述词嵌入向量进行深层特征提取,获得每一个序列对应的文本深层语义特征;将所述文本深层语义特征经过全连接层和Softmax分类器,进行模型的训练和测试。本申请通过盘古大模型和迁移学习技术,减少所需的有标签的有害短信数据量,训练所需要的时间和计算资源也大大减少,具有更好的适应性,能在短时间内生成可靠的有害短信检测分析模型,提高了通信网有害短信的分析效率。

    环境声音事件检测方法、装置和介质

    公开(公告)号:CN114974302A

    公开(公告)日:2022-08-30

    申请号:CN202210484489.9

    申请日:2022-05-06

    Abstract: 本申请公开了环境声音事件检测方法、装置和介质,其中方法包括对环境声音进行特征提取,得到数据集,所述数据集中包含多事件类别;分别以所述数据集中的Mel、MFCC和LogMel作为输入特征;用双向GRU对所述输入特征进行训练;获得环境声音多分类模型概率输出。对比传统的应用于声音处理的深度学习方法,本申请先通过CNN提取事件音频的声谱图作为特征输入;双向GRU自动从每个输入声谱图中提取特征序列,在卷积网络之上,构建了一个循环网络,用于对卷积层的输出特征序列进行声学建模,建立内部序列关系;最后通过分类函数对音频信号进行预测,得到最终预测结果,在多事件音频检测这一任务上性能较高,比使用单一的卷积网络应用性更强,提高了系统的实用价值。

    基于迁移学习的环境声音分类分析方法、装置和介质

    公开(公告)号:CN114861784A

    公开(公告)日:2022-08-05

    申请号:CN202210451946.4

    申请日:2022-04-24

    Abstract: 本申请公开了基于迁移学习的环境声音分类分析方法、装置和介质,其中的方法包括:使用Yamnet模型对的环境声音样本进行特征提取,获得噪声并将所述噪声嵌入每个所述环境声音样本的序列的声音特征,得到特征向量;采用深度卷积神经网络对所述特征向量进行深度特征提取,获得每个所述环境声音样本的深层嵌入特征;将所述深层嵌入特征输入深度卷积神经网络的全连接层进行模型的训练和测试,输出每个所述环境声音样本的序列的预测概率,用多数投票法得到最终的环境声音分类结果。本申请将为节省研发资源,以及将大数据机器学习成果转移到小数据、定制化应用等等提供了一个便捷的渠道,具有广泛的应用前景以及巨大的实用价值。

    基于生成对抗网络和深度学习的有害网站的检测方法

    公开(公告)号:CN113657453A

    公开(公告)日:2021-11-16

    申请号:CN202110830095.X

    申请日:2021-07-22

    Abstract: 本发明涉及一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及可读介质的技术方案,包括:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了系统的实用价值。

Patent Agency Ranking