-
公开(公告)号:CN115700514A
公开(公告)日:2023-02-07
申请号:CN202110806905.8
申请日:2021-07-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/332 , G06F40/30 , G06F18/2411
Abstract: 本发明公开了一种结合BIGRU和多头注意的事件主体提取方法及装置,包括:把文本数据转化为文本输入序列X;利用BiGRU网络获取文本输入序列X对应的向量XB;基于文本输入序列X与向量XB进行多头注意力计算;依据注意力计算结果,获取事件主体提取结果。本发明使用BIGRU网络学习上下文语义特征,通过引入多头注意力机制捕获序列中的关键特征信息,提高了工作效率及准确性。
-
公开(公告)号:CN115410207A
公开(公告)日:2022-11-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN113239663A
公开(公告)日:2021-08-10
申请号:CN202110309085.1
申请日:2021-03-23
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN104794158A
公开(公告)日:2015-07-22
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
公开(公告)号:CN103516550A
公开(公告)日:2014-01-15
申请号:CN201310455753.7
申请日:2013-09-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向大规模包分类规则集的规则冲突检测方法及系统,所述方法包括:步骤1,接收并解析规则;步骤2,将解析后的规则划分为全前缀规则、非全前缀规则和无前缀规则;步骤3,采用源IP-目的IP双层哈希表HSIP-DIP或目的IP哈希表H*-DIP组织全前缀规则集,并对应在HSIP-DIP或H*-DIP中进行规则的增加、删除或查询;步骤4,采用源IP-目的IP双维Tire树TSIP-TDIP组织非全前缀规则集,并在TSIP-TDIP中进行规则的增加、删除或查询;步骤5,采用链表L*-*组织无前缀规则集,并在L*-*中进行规则的增加、删除或查询;步骤6,遍历HSIP-DIP、H*-DIP、TSIP-TDIP和L*-*中的每一个规则作为被检规则,检测与被检规则冲突的所有规则。本发明解决了现在技术中规则冲突算法存在的不足。
-
公开(公告)号:CN115700583A
公开(公告)日:2023-02-07
申请号:CN202110806934.4
申请日:2021-07-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/284 , G06F18/2411
Abstract: 本发明公开了一种基于语义网络词表示与注意力图的事件检测方法及装置,包括:拼接每个词的词内容向量、词结构向量与位置特征向量,生成各句子的特征图;结合各词的POS向量进行注意力机制的计算,生成各句子的新特征图;基于新特征图生成句层面特征向量;利用句层面特征向量与词内容向量的拼接结果,获取事件检测结果。本发明综合利用了外部语料库、语义网络、词性和注意力图,并通过优化特征,更准确地抽取触发词,引入了更多信息,解决了一词多义问题,表达了同义词之间的关联信息,得到更精确地事件检测结果。
-
公开(公告)号:CN104794158B
公开(公告)日:2018-11-13
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
公开(公告)号:CN104731864B
公开(公告)日:2018-05-29
申请号:CN201510088785.7
申请日:2015-02-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
-
公开(公告)号:CN103544258B
公开(公告)日:2016-11-30
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
-
-
-
-
-
-
-
-