-
公开(公告)号:CN114090775A
公开(公告)日:2022-02-25
申请号:CN202111376161.7
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 李高翔 , 黄福鸿 , 卓采标 , 廖淑敏 , 杨慧强 , 宋宜昌 , 黄正国 , 周毅 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: G06F16/35 , G06F16/33 , G06F16/951 , G06F16/957
Abstract: 本发明属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。
-
公开(公告)号:CN113642328A
公开(公告)日:2021-11-12
申请号:CN202010343089.7
申请日:2020-04-27
Applicant: 国家计算机网络与信息安全管理中心 , 天津市国瑞数码安全系统股份有限公司
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种诈骗文本命名实体识别方法,包括:收集诈骗文本,对诈骗文本进行类别标记;使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练,生成诈骗文本命名实体判断模型;接收新通信文本,使用诈骗文本命名实体判断模型对新通信文本进行分析,获取新通信文本中的命名实体及类别。本发明针对诈骗文本手段不断变化,收集大量的历史诈骗文本,构建诈骗文本命名实体判断模型,周期性收集多条历史诈骗文本的相关数据对诈骗文本命名实体判断模型进行自回溯验证,对新通讯文本命名实体识别进行实时验证,实现系统自动化分析处理与人工校准相结合,有效识别新型诈骗文本中的命名实体,通过自动验证不断完善系统模型,实现系统自动化。
-
公开(公告)号:CN114143290B
公开(公告)日:2024-01-30
申请号:CN202111407941.3
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
Abstract: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
公开(公告)号:CN114143290A
公开(公告)日:2022-03-04
申请号:CN202111407941.3
申请日:2021-11-19
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
Inventor: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
IPC: H04L61/5061 , H04L61/5007 , H04L61/5053 , H04L67/56 , G06F16/951
Abstract: 本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
-
公开(公告)号:CN113645356A
公开(公告)日:2021-11-12
申请号:CN202010343481.1
申请日:2020-04-27
Applicant: 国家计算机网络与信息安全管理中心 , 天津市国瑞数码安全系统股份有限公司
Abstract: 本发明提出一种基于网内开卡行为分析的诈骗电话识别方法,包括:收集诈骗电话和普通电话的开卡行为数据,并提取诈骗电话和普通电话的特征向量;使用诈骗电话和普通电话的特征向量进行诈骗电话模型训练,生成诈骗电话判断模型;接收新电话的开卡行为数据,并提取新电话的特征向量;使用诈骗电话判断模型对新电话的特征向量进行分析,对新电话进行判断。本发明针对诈骗电话手段不断变化,采用大数据分析历史诈骗电话和普通电话的相关数据,使用“GBDT‑LSTM‑RF”的深度学习模型架构,构建诈骗电话判断模型,通过自学习技术学习到网内开卡时序特征,并将多类特征进行融合,从而可以发现诈骗电话;本发明还可以自更新,可以有效发现新型诈骗电话。
-
公开(公告)号:CN114218934A
公开(公告)日:2022-03-22
申请号:CN202111536458.5
申请日:2021-12-15
Applicant: 天津市国瑞数码安全系统股份有限公司
IPC: G06F40/279 , G06F16/953 , G06F16/958
Abstract: 本发明涉及一种基于BERT算法的网页广告营销文本识别方法及系统,所述一种基于BERT算法的网页广告营销文本识别方法包括:采集网页原始数据获取网页初始待识别文本集合;利用所述网页初始待识别文本集合获取网页广告营销文本识别结果,利用成熟的BERT算法进行合理计算,并通过广告营销文本的特征实现网页广告营销文本内容识别,进一步提升广告营销文本判断模型的准确性。
-
-
-
-
-