-
公开(公告)号:CN117371423A
公开(公告)日:2024-01-09
申请号:CN202311076561.5
申请日:2023-08-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/20 , G06N3/0442 , G06N3/09
Abstract: 本发明公开了一种不平衡条件下的文本分类器生成方法和装置,所述方法包括:获取不平衡数据,基于所述不平衡数据构建训练集;生成特征向量,将特征向量作为输入数据;将输入数据输入分类网络,分类网络包括依次相连的卷积层、池化层、LSTM层、GRU层、全连接层;输入数据经所述分类网络处理,得到中间分类结果,所述中间分类结果是未经完全训练,但是已有分类效果的结果;将中间分类结果与真实标签输入损失函数,得到中间结果对应的损失值,若损失值小于预定义的损失值,则当前的分类网络结合当前的权重作为构建完毕的分类器。本方法能在训练过程中减少分对样本的损失在总的损失中的权重,使得分类器的优化更偏向分错的样本。
-
公开(公告)号:CN117271765A
公开(公告)日:2023-12-22
申请号:CN202311059507.X
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/30 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。
-
公开(公告)号:CN117194773A
公开(公告)日:2023-12-08
申请号:CN202311061729.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9538 , G06F16/35 , G06F16/532
Abstract: 本发明公开了一种基于多模态特征的网站识别方法及装置,所述方法包括:获取处理后的网页信息;得到对应的网页文本特征;获取网页用户特征;获取网页资源信息特征;获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。本方法利用多模态识别模型对网站进行分类,有效提高了对不良网站识别的准确率。
-
公开(公告)号:CN117149949A
公开(公告)日:2023-12-01
申请号:CN202311059658.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/23
Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。
-
公开(公告)号:CN116910754A
公开(公告)日:2023-10-20
申请号:CN202310947894.4
申请日:2023-07-31
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F21/56 , G06F16/33 , G06F16/35 , G06F16/36 , G06F40/295 , G06F40/30 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明属于应用程序技术领域,具体为一种基于知识图谱的高危App检测识别方法。本发明提供了基于知识图谱的高危App检测识别方法,包括数据采集:根据预设采集规则,面向境内主流的移动应用市场进行全网信息采集;采用代理自动切换和多线程并发策略,结合深度优先遍历、广度优先遍历、种子池搜索、ID索引等技术进行全量数据获取。无需人工干涉,系统自动捕获最新的应用版本,既能确保追踪应用信息的更新,又能确保捕获应用信息的新增,同时还不影响兼顾采集效率;通过借助构建的App知识图谱关联关系及纯文本语义关系,综合处理获取信息,实现对App多维度的风险检测评估,本发明以整体关联分析的方法处理,速度快且灵活性高。
-
公开(公告)号:CN116825137A
公开(公告)日:2023-09-29
申请号:CN202310802442.7
申请日:2023-07-03
Applicant: 国家计算机网络与信息安全管理中心天津分中心
Abstract: 本发明属于深度合成音频检测领域技术领域,特别涉及一种基于多粒度注意力机制的深度合成音频检测方法和装置,其中,深度合成音频检测方法包括以下步骤:获取待检测音频;对待检测音频进行预处理,得到对应的频谱图;对频谱图进行多粒度特征提取,得到不同时间尺度的中间特征;对不同时间尺度的中间特征采用多粒度注意力机制进行特征融合,得到多粒度特征;将多粒度特征输入预训练好的深度合成音频检测模型中,输出对应的预测结果。本发明提供的深度合成音频检测方法多粒度注意力机制,结合深度学习技术,充分利用音频信号的时频特征,提高对不同时序的关注能力,从而提高音频检测的准确性和鲁棒性。
-
公开(公告)号:CN115809368A
公开(公告)日:2023-03-17
申请号:CN202211660700.4
申请日:2022-12-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0442 , G06N3/0464 , G06N3/045 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本发明涉及侦测搜索技术领域,具体公开了一种基于HTML结构特征的端到端色情网站侦测方法,包括词嵌入层、Bi‑LSTM层、卷积层、Attention层,研究了搜索引擎的网站排名机制和HTML的标签结构特征,通过提取HTML源代码中的meta标签作为文本数据集,构建了BiLSTM+TextCNN+Attention协同模型用于色情网站侦测。
-
公开(公告)号:CN110879861A
公开(公告)日:2020-03-13
申请号:CN201910834941.8
申请日:2019-09-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/953
Abstract: 本发明公开了一种基于表示学习的相似移动应用计算方法,所述方法包括:读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法-网络嵌入模型LINE网络;基于LINE负采样技术优化Skip-gram模型,通过所述Skip-gram模型训练所述LINE网络,得到每个实体以及移动应用自身的向量表示;根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算。
-
公开(公告)号:CN110688316A
公开(公告)日:2020-01-14
申请号:CN201910921222.X
申请日:2019-09-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F11/36 , G06F16/2455 , G06F16/36
Abstract: 本发明公开了一种基于规则引擎的移动应用风险等级推理评估方法及装置,所述方法包括:获取预先存储的预定义风险等级推理规则,并从移动应用的图数据库中读取各个移动应用的三元组实例;通过预定算法根据所述预定义风险等级推理规则和所述三元组实例,对各个移动应用进行推理,得到各个移动应用的风险等级。
-
公开(公告)号:CN104573033B
公开(公告)日:2017-12-19
申请号:CN201510020876.7
申请日:2015-01-15
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提出了一种动态URL过滤方法及装置,该方法包括:基于URL标注集创建信息字典;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;对URL特征矩阵进行分类得到特征权重向量和二分类阈值;基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。本发明可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。
-
-
-
-
-
-
-
-
-