-
公开(公告)号:CN116484839A
公开(公告)日:2023-07-25
申请号:CN202310312448.6
申请日:2023-03-28
Applicant: 中国科学院信息工程研究所
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/08
Abstract: 本发明公开一种基于协同元学习的推理加速方法及装置。所述方法包括:构建推理模型;其中,所述推理模型是每一transformer层之后额外添加一个早退分类器的基于transformer的模型;训练推理模型;其中,所述训练推理模型包括:优化推理模型的初始参数、和将优化参数传入Adam优化器进行梯度更新,以训练早退分类器;使用训练后的推理模型进行任务预测,并基于熵的退出机制输出所述任务的预测结果。本发明可以在保持很小的性能损失的同时提升模型的推理速度。
-
公开(公告)号:CN115587223A
公开(公告)日:2023-01-10
申请号:CN202211065691.4
申请日:2022-09-01
Applicant: 中国科学院信息工程研究所
IPC: G06F16/903 , G06F16/35 , G06F16/33 , G06F40/216
Abstract: 本发明提出一种面向相似文本的正则表达式自动生成方法、系统及介质,涉及自然语言处理领域和信息安全领域,对于输入的相似文本,采用文本嵌入表示方法获得相似文本的嵌入表示;再将同类的相似文本聚为同一类别;对于每类相似文本,抽取出其中的公共部分和差异部分;将抽取的公共部分和差异部分进行组合,生成每类相似文本对应的正则表达式。本发明可高效快速地批量处理大量相似文本,不需人工参与,生成每类相似文本的正则表达式。
-
公开(公告)号:CN115442075A
公开(公告)日:2022-12-06
申请号:CN202210921613.3
申请日:2022-08-02
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于异质图传播网络的恶意域名检测方法和系统。该方法使用异质图传播网络进行恶意域名分类问题时,将DNS场景建模为包含主机、域名、IP地址的异质信息网络,该异质信息网络包含三种关系,能够很好的模拟真实DNS场景。该方法使用的异质图传播网络模型包含语义传播机制和语义融合机制。语义传播机制能够在聚合邻居节点特征时强调节点自身特征,即使增加语义传播机制的层数,学习到的节点特征依然可以相互区分,缓解语义混淆现象。语义融合机制能够在恶意域名检测任务下,学习到每个语义的重要性,加权融合各个语义。本发明能够有效地实现恶意域名检测。
-
公开(公告)号:CN110704606B
公开(公告)日:2022-05-31
申请号:CN201910764261.3
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于图文融合的生成式摘要生成方法,其步骤包括:1)将给定的文本数据集划分为训练集、验证集和测试集;其中,文本数据集中的每一样本是一三元组(X,I,Y),X是文本,I是文本X对应的图像,Y是文本X的摘要;2)对文本数据集的图像进行实体特征提取,并将提取的实体特征表示成与文本同维度的图像特征向量;3)使用训练集和训练集对应的图像特征向量对生成式摘要模型进行训练;4)输入一条文本和对应图像并生成该图像的图像特征向量,然后将该文本及其对应的图像特征向量输入到训练后的生成式摘要模型,得到该文本对应的摘要。本发明生成的摘要可以有效地调整文本中实体的权重,在一定程度缓解未登录词的问题。
-
公开(公告)号:CN113472742A
公开(公告)日:2021-10-01
申请号:CN202110588732.7
申请日:2021-05-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于门控循环单元的内部威胁检测方法和装置。该方法的步骤包括:解析用户审计日志以获取用户动作信息,将每个用户的动作按照时间先后顺序构建用户动作序列;利用门控循环单元GRU从用户动作序列中提取用户行为的时序特征;将提取的时序特征输入LR分类器进行分类,判别其为正常或异常,从而实现内部威胁检测。本发明融合多域的用户活动记录以全面地刻画用户行为,GRU可以更好地捕获用户动作序列的长期依赖,该方案能够实现用户行为细粒度的分析并提高了内部威胁检测的准确率。
-
公开(公告)号:CN109977298B
公开(公告)日:2021-07-23
申请号:CN201910116717.5
申请日:2019-02-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535
Abstract: 本发明提供一种从正则表达式中抽取最长精确子串的方法,步骤包括:构造正则表达式的解析树,获得可以进行解析树遍历访问的根节点;将解析树的CONCAT路径上的CONCAT节点的边都进行切分,把解析树切分成多个子树,每个子树即为一个基本单元;新建一个节点作为精确串锚点,用以存储精确串,同时记录该精确串锚点的左右邻居,该精确串为只有单个字符的基本单元或者由连续CONCAT操作符切分的字符拼接而成;通过对精确串锚点的左邻居和右邻居分别计算后缀和前缀,通过对后缀、精确串、前缀的拼接即可得到基于该精确串锚点抽取的精确子串,再通过对所有精确串锚点的计算,得到最长精确子串。
-
公开(公告)号:CN109766432B
公开(公告)日:2021-03-30
申请号:CN201810765723.9
申请日:2018-07-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于生成对抗网络的中文摘要生成方法和装置。该方法包括:1)通过对给定的中文数据集进行预处理操作形成训练集;2)构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。本发明使用判别器最小化误差来代替最大生成摘要概率的框架;特别设计了由3个LSTMs组成的判别器,能够更好地捕获特征,辅助分类效果;提出使用以字为单位结合上下文,能够有效提升文本摘要的效率。本发明能够对大规模中文文本进行摘要的自动生成,生成的摘要更自然、连贯,具有可读性。
-
公开(公告)号:CN110413958B
公开(公告)日:2020-12-04
申请号:CN201910505446.2
申请日:2019-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F40/151 , G06F16/903
Abstract: 本发明提供一种用于自动机空间压缩的线性同余字符集变换方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用线性同余函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现变换。本发明还提供一种用于自动机空间压缩的线性同余字符集变换系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。
-
公开(公告)号:CN107402959B
公开(公告)日:2020-01-17
申请号:CN201710451043.5
申请日:2017-06-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/958 , G06F16/955 , G06F16/901
Abstract: 本发明提供URL匹配方法、URL匹配设备及存储介质,该方法通过将输入的待匹配的原始URL数据在URL结果缓存中查询是否已存储过其对应的信息,若是则查询标志位及已命中规则表得到以前是否匹配的信息,输出匹配结果;否则在模式匹配引擎中进行匹配,并进行存储URL数据。该方法对大量重复的URL数据去重,以降低URL数据重复匹配次数,提高匹配速度。同时本发明采用比实际串匹配复杂度低的多项式散列算法,但不仅限于多项式散列算法。在增添数据去重操作后可以减少重复的URL数据的匹配次数,达到去重和降低匹配时间的目的。
-
公开(公告)号:CN110413958A
公开(公告)日:2019-11-05
申请号:CN201910505446.2
申请日:2019-06-12
Applicant: 中国科学院信息工程研究所
IPC: G06F17/22 , G06F16/903
Abstract: 本发明提供一种一种用于自动机空间压缩的线性同余字符集变换方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用线性同余函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现变换。本发明还提供一种用于自动机空间压缩的线性同余字符集变换系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。
-
-
-
-
-
-
-
-
-