-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN111694952A
公开(公告)日:2020-09-22
申请号:CN202010299741.X
申请日:2020-04-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/31 , G06F16/335
Abstract: 本发明公开了一种基于微博的大数据分析模型系统及其实现方法,该实现方法包括以下步骤:步骤1、首先对收集的数据进行清洗和预处理工作,然后对数据进行人工标注;步骤2、模型训练阶段,采用SVM、cnnrnn结合Bert预训练模的方式进行模型训练;步骤3、在次人工标注的训练集上进行模型训练;步骤4、通过对比真实数据标签和预测结果,不断迭代优化通过不断的迭代优化参数调优的方式得到最佳模型;步骤5、在海量的文章中聚类,通过simHash算法,对文章内容进行局部HASH;步骤6、把选择出来的HASH对应的文章查询出来,再通过机器学习的算法进行聚类。本发明能够在保证模型准确率的基础上可以有效地减少机器需求,提高模型的准确率以及鲁棒性。
-
公开(公告)号:CN106227768B
公开(公告)日:2019-09-03
申请号:CN201610559782.1
申请日:2016-07-15
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F17/27
Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。
-
公开(公告)号:CN108429747A
公开(公告)日:2018-08-21
申请号:CN201810189206.1
申请日:2018-03-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京启明星辰信息安全技术有限公司
Inventor: 方喆君 , 何跃鹰 , 卓子寒 , 张晓明 , 张嘉玮 , 赵忠华 , 董建武 , 李明哲 , 刘中金 , 孙中豪 , 鲁骁 , 刘岗 , 阙为涛 , 肖成民 , 王虹 , 安潇羽 , 智红莉
Abstract: 本发明公开了一种大规模Web服务器信息采集方法基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,本发明一种大规模Web服务器信息采集方法,通过Web服务器分布情况及指纹库,可以通过探测网络空间中的I P地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,能够形成指纹库,可以通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,能够根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而可以对网络空间Web服务器整体安全性进行评估和预警。
-
公开(公告)号:CN103905424A
公开(公告)日:2014-07-02
申请号:CN201310729327.8
申请日:2013-12-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L29/06
Abstract: 本发明公开了一种短域名安全性评定方法,包括:将接收到的短域名还原成原始域名;对原始域名进行安全检查,根据检查结果向用户进行提示。本发明通过对短域名转换为原域名,对该域名的安全性进行判断,对有恶意的域名进行阻拦,对不确定的域名进行提示,大大提高了短域名的安全性。
-
公开(公告)号:CN113239663B
公开(公告)日:2022-07-12
申请号:CN202110309085.1
申请日:2021-03-23
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN109033166B
公开(公告)日:2022-01-07
申请号:CN201810636331.2
申请日:2018-06-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/211
Abstract: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。
-
公开(公告)号:CN113255720A
公开(公告)日:2021-08-13
申请号:CN202110393842.8
申请日:2021-04-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06K9/62 , G06Q50/00 , G06F16/901
Abstract: 本发明公开了一种基于分层图池化的多视角聚类方法,包括以下步骤:将待处理数据划分成多视角数据集,然后将多视角数据集按各视角构建对应的图表示,得到对应的视图;采用分层图池化层迭代计算方法提取每个视图的聚类信息,每个视图的聚类信息包括对应该视图的粗化图和分配矩阵,该粗化图包括迭代后的邻接矩阵、特征矩阵、图拉普拉斯矩阵;采用多视角谱聚类融合方法融合所有视图的聚类信息,得到每一类特征向量所对应的类别。具有充分利用待处理数据本身的多视图特征,可以综合包含原各个视图的聚类信息。公开了一种基于分层图池化的多视角聚类系统,包括:图构建模块、聚类信息计算提取模块、多视角融合模块。本发明具有提升聚类效果的有益效果。
-
公开(公告)号:CN111949848A
公开(公告)日:2020-11-17
申请号:CN202010785632.9
申请日:2020-08-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/9536 , G06F16/958 , G06F16/35 , G06F40/295 , G06F40/216
Abstract: 本发明涉及一种基于特定事件的跨平台传播态势评估及分级方法,属于网络信息领域。本发明的基于特定事件的跨平台传播态势评估及分级方法,具体包括四个功能模块,分别为:原始网络元素检测模块、特定事件的话题传播计算模块、话题传播模型参数的等级评定和威胁分析模块、任务调度和优化模块。本发明解决了现有技术中没有考虑到事件的传播态势评估及分级方法,提出了针对特定事件传播情况的量化评估方法和有区分度的分级手段,建立了信息系统框架,实现了对特定事件的跨平台传播态势评估及分级,同时根据特定事件的跨平台传播态势评估对后续监测工作进行指导,从而有效提高对于事件传播的紧急或影响程度的判断能力,用以指导实际工作。
-
公开(公告)号:CN105791039B
公开(公告)日:2019-02-26
申请号:CN201410811870.7
申请日:2014-12-22
Applicant: 北京启明星辰信息安全技术有限公司 , 国家计算机网络与信息安全管理中心 , 北京启明星辰信息技术股份有限公司
Abstract: 本发明公开了一种基于特征片段自发现的可疑隧道检测方法和系统,包括基于特征片段锁定算法锁定特征片段集合并找出最邻近片段集合;在可疑隧道检测过程中,实时提取元数据片段,基于片段间最小距离搜索算法分别计算元数据片段与特征片段集合和最邻近片段之间的最小距离,计算可疑元数据片段的判定参数,当判定参数的结果小于零时,判定元数据片段为可疑片段并报警;当大于或等于零时,为非可疑片段。通过本发明的方案,能够同时具备误用检测技术的自解释能力和异常检测技术的发现未知可疑隧道的优点,避免了网络安全专家的大量精力投入,回避了统计特征被平均化的问题。
-
-
-
-
-
-
-
-
-