-
公开(公告)号:CN115587223A
公开(公告)日:2023-01-10
申请号:CN202211065691.4
申请日:2022-09-01
Applicant: 中国科学院信息工程研究所
IPC: G06F16/903 , G06F16/35 , G06F16/33 , G06F40/216
Abstract: 本发明提出一种面向相似文本的正则表达式自动生成方法、系统及介质,涉及自然语言处理领域和信息安全领域,对于输入的相似文本,采用文本嵌入表示方法获得相似文本的嵌入表示;再将同类的相似文本聚为同一类别;对于每类相似文本,抽取出其中的公共部分和差异部分;将抽取的公共部分和差异部分进行组合,生成每类相似文本对应的正则表达式。本发明可高效快速地批量处理大量相似文本,不需人工参与,生成每类相似文本的正则表达式。
-
公开(公告)号:CN115442075A
公开(公告)日:2022-12-06
申请号:CN202210921613.3
申请日:2022-08-02
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于异质图传播网络的恶意域名检测方法和系统。该方法使用异质图传播网络进行恶意域名分类问题时,将DNS场景建模为包含主机、域名、IP地址的异质信息网络,该异质信息网络包含三种关系,能够很好的模拟真实DNS场景。该方法使用的异质图传播网络模型包含语义传播机制和语义融合机制。语义传播机制能够在聚合邻居节点特征时强调节点自身特征,即使增加语义传播机制的层数,学习到的节点特征依然可以相互区分,缓解语义混淆现象。语义融合机制能够在恶意域名检测任务下,学习到每个语义的重要性,加权融合各个语义。本发明能够有效地实现恶意域名检测。
-
公开(公告)号:CN109977298B
公开(公告)日:2021-07-23
申请号:CN201910116717.5
申请日:2019-02-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535
Abstract: 本发明提供一种从正则表达式中抽取最长精确子串的方法,步骤包括:构造正则表达式的解析树,获得可以进行解析树遍历访问的根节点;将解析树的CONCAT路径上的CONCAT节点的边都进行切分,把解析树切分成多个子树,每个子树即为一个基本单元;新建一个节点作为精确串锚点,用以存储精确串,同时记录该精确串锚点的左右邻居,该精确串为只有单个字符的基本单元或者由连续CONCAT操作符切分的字符拼接而成;通过对精确串锚点的左邻居和右邻居分别计算后缀和前缀,通过对后缀、精确串、前缀的拼接即可得到基于该精确串锚点抽取的精确子串,再通过对所有精确串锚点的计算,得到最长精确子串。
-
公开(公告)号:CN110413958B
公开(公告)日:2020-12-04
申请号:CN201910505446.2
申请日:2019-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F40/151 , G06F16/903
Abstract: 本发明提供一种用于自动机空间压缩的线性同余字符集变换方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用线性同余函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现变换。本发明还提供一种用于自动机空间压缩的线性同余字符集变换系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。
-
公开(公告)号:CN107402959B
公开(公告)日:2020-01-17
申请号:CN201710451043.5
申请日:2017-06-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/958 , G06F16/955 , G06F16/901
Abstract: 本发明提供URL匹配方法、URL匹配设备及存储介质,该方法通过将输入的待匹配的原始URL数据在URL结果缓存中查询是否已存储过其对应的信息,若是则查询标志位及已命中规则表得到以前是否匹配的信息,输出匹配结果;否则在模式匹配引擎中进行匹配,并进行存储URL数据。该方法对大量重复的URL数据去重,以降低URL数据重复匹配次数,提高匹配速度。同时本发明采用比实际串匹配复杂度低的多项式散列算法,但不仅限于多项式散列算法。在增添数据去重操作后可以减少重复的URL数据的匹配次数,达到去重和降低匹配时间的目的。
-
公开(公告)号:CN110413958A
公开(公告)日:2019-11-05
申请号:CN201910505446.2
申请日:2019-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22 , G06F16/903
Abstract: 本发明提供一种一种用于自动机空间压缩的线性同余字符集变换方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用线性同余函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现变换。本发明还提供一种用于自动机空间压缩的线性同余字符集变换系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。
-
公开(公告)号:CN107402959A
公开(公告)日:2017-11-28
申请号:CN201710451043.5
申请日:2017-06-15
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供URL匹配方法、URL匹配设备及存储介质,该方法通过将输入的待匹配的原始URL数据在URL结果缓存中查询是否已存储过其对应的信息,若是则查询标志位及已命中规则表得到以前是否匹配的信息,输出匹配结果;否则在模式匹配引擎中进行匹配,并进行存储URL数据。该方法对大量重复的URL数据去重,以降低URL数据重复匹配次数,提高匹配速度。同时本发明采用比实际串匹配复杂度低的多项式散列算法,但不仅限于多项式散列算法。在增添数据去重操作后可以减少重复的URL数据的匹配次数,达到去重和降低匹配时间的目的。
-
公开(公告)号:CN116886327A
公开(公告)日:2023-10-13
申请号:CN202310469489.6
申请日:2023-04-27
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511
Abstract: 本发明公开了一种基于异质图自监督学习的恶意域名检测方法和系统。所述方法包括:将DNS场景建模为一个原始异质图;其中,所述原始异质图中的节点包括:域名、客户端和IP地址;在数据层面上引入轻微的扰动来生成所述原始异质图的轻微扰动图;根据域名级的对比损失和图级的相似性损失,获取所述原始异质图中域名的节点表示;其中,所述域名级的对比损失是对原始异质图和轻微扰动图中域名的节点表示进行相似性对比得到,所述图级的相似性损失是对原始异质图和轻微扰动图的图嵌入表示进行相似性对比得到;基于所述原始异质图中域名的节点表示,得到所述DNS场景的恶意域名检测结果。本发明可以在域名标签稀疏的困境下解决恶意域名模型过拟合的问题。
-
公开(公告)号:CN116663532A
公开(公告)日:2023-08-29
申请号:CN202310312449.0
申请日:2023-03-28
Applicant: 中国科学院信息工程研究所
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本发明公开一种基于核对齐推理的对比自蒸馏BERT加速方法及装置。所述方法包括:构建推理模型;其中,所述推理模型是每一transformer层之后额外添加一个早退分类器的BERT模型;基于分类损失、对比损失和蒸馏损失,训练推理模型;使用训练后的推理模型进行任务预测,并基于核对齐的退出机制输出所述任务的预测结果。本发明实现了高加速比情况下优越的模型性能。
-
公开(公告)号:CN115424025A
公开(公告)日:2022-12-02
申请号:CN202210927391.6
申请日:2022-08-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种稠密子图抽取方法和系统,属于计算机软件技术领域。该方法包括:对原图采用Mas策略进行子图分割,得到节点序列L;对节点序列L进行合并检查,无法通过合并检查的结点重新回到原图做后续的分割;对通过合并检查的子图结点进行合并,构成K边联通子图。本发明在图分解框架中使用了最大S‑T流解决路径数搜索问题,对现有Mas策略的不足提出了改进方法,使得本方法在K‑ECC抽取工作中提高了现有工作的准确率。
-
-
-
-
-
-
-
-
-