-
公开(公告)号:CN116704301A
公开(公告)日:2023-09-05
申请号:CN202310553204.7
申请日:2023-05-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06V10/80 , G06V10/774 , G06V10/764 , G06V10/82 , G06V10/52 , G06F16/58 , G06N3/08 , G06N3/0455 , G06N3/0499 , G06N5/04
Abstract: 本公开涉及一种跨模态多尺度融合检测模型训练、检测方法、装置及设备。其中,跨模态多尺度融合检测模型训练方法包括:获取样本图像中多个目标对象中每个目标对象分别对应的类别标签和位置信息;确定每个目标对象分别对应的图像区域;针对每个目标对象,通过待训练的跨模态多尺度融合检测模型,计算第一相似度、第二相似度、第三相似度,根据第一相似度、第二相似度、第三相似度以及预设的损失函数,计算损失值;根据损失值,对待训练的跨模态多尺度融合检测模型进行训练,根据本公开实施例,能够通过训练得到的跨模态多尺度融合检测模型,提高图像中目标对象识别结果的准确性。
-
公开(公告)号:CN114090775A
公开(公告)日:2022-02-25
申请号:CN202111376161.7
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 李高翔 , 黄福鸿 , 卓采标 , 廖淑敏 , 杨慧强 , 宋宜昌 , 黄正国 , 周毅 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: G06F16/35 , G06F16/33 , G06F16/951 , G06F16/957
Abstract: 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。
-
公开(公告)号:CN114143290B
公开(公告)日:2024-01-30
申请号:CN202111407941.3
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
Abstract: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
公开(公告)号:CN116704300A
公开(公告)日:2023-09-05
申请号:CN202310552691.5
申请日:2023-05-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06V10/80 , G06V10/774 , G06V10/82 , G06F16/58 , G06N3/08 , G06N3/0455 , G06N5/04
Abstract: 本公开涉及一种跨模态特征融合模型训练方法、融合方法、装置及设备。本公开通过对待训练的跨模态特征融合模型进行训练,得到跨模态特征融合模型,进而基于跨模态特征融合模型对图像文本对进行对齐融合时,提高了图像文本对齐融合的准确性,提升了图像文本对齐融合的推理速度,即提高了视觉和语言任务准确率,提升了视觉和语言任务推理速度。
-
公开(公告)号:CN114143290A
公开(公告)日:2022-03-04
申请号:CN202111407941.3
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
Abstract: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
-
-
-