-
公开(公告)号:CN111753150A
公开(公告)日:2020-10-09
申请号:CN202010412344.9
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9032
Abstract: 本发明公开一种基于图搜索方法加速epsilon闭包计算的方法及系统,涉及计算机领域,针对传统闭包计算整体消耗时间长的缺陷,为了优化闭包算法,利用图搜索的方法,在NFA构造DFA的过程中对现有的方法进行优化,加速了DFA的构造过程。
-
公开(公告)号:CN110401451A
公开(公告)日:2019-11-01
申请号:CN201910505421.2
申请日:2019-06-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于字符集变换的自动机空间压缩方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数、最小有效后继状态和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用双射函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现压缩。本发明还提供一种基于字符集变换的自动机空间压缩系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。
-
公开(公告)号:CN107515897A
公开(公告)日:2017-12-26
申请号:CN201710589808.1
申请日:2017-07-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/90344
Abstract: 本发明涉及一种串匹配场景下数据集生成方法、设备和可读存储介质。该方法包括以下步骤:1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;3)输出生成的随机模式串集合和文本数据集。该设备包括通过总线连接的接收器、处理器、存储器和发送器,所述存储器用于存储串匹配场景下数据集生成指令。本发明能够生成预设规模预设长度的随机模式串集合,根据已生成的随机模式串集合可以构造指定命中水平的文本数据集,该随机模式串集合和文本数据集能够用于串匹配算法的功能测试和性能测试,对串匹配算法的进一步研究和性能提升有重要的作用。
-
公开(公告)号:CN116628303B
公开(公告)日:2025-03-14
申请号:CN202310462355.1
申请日:2023-04-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/958 , G06F16/353 , G06F18/2415 , G06F40/186 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于提示学习的半结构化网页属性值抽取方法和系统,涉及互联网领域,首先根据DOM树简化算法检索变量节点的DOM树视角提示,然后设计包含任务描述的任务模板获得模板视角提示信息,最后引入基于encoder‑decoder结构的预训练语言模型,并以“提示”为核心操作,全面分析领域数据特点和目标任务特点,设计两种视角的提示信息,通过模板填充融合双视角提示信息,通过提示学习的方式在语义层面和任务层面联合引导预训练语言模型进行任务学习,实现预训练语言模型和属性值抽取任务的有效结合,实现了领域标注数据稀缺场景下优越的模型性能。
-
公开(公告)号:CN113627164B
公开(公告)日:2024-03-01
申请号:CN202110784458.0
申请日:2021-07-12
Applicant: 中国科学院信息工程研究所
IPC: G06F40/279 , G06F40/216 , G06F18/23213 , G06F18/214 , G06F18/2411
Abstract: 本发明公开了一种状态爆炸型正则表达式的识别方法及系统。本方法为:1)对于一待识别的正则表达式,生成其对应的NFA图,得到该正则表达式对应的NFA图集合;2)对于NFA图集合中的每一NFA图,提取该NFA图中的所有根子图并将其输入graph2vec模型,训练得到该NFA图的嵌入表示;3)利用分类模型处理该NFA图的嵌入化表示,判定该正则表达式是否为状态爆炸型正则表达式。该方法可高效快速的批量处理正则表达式,满足在线系统的高效处理性能与较低空间消耗的需求。
-
公开(公告)号:CN115630145A
公开(公告)日:2023-01-20
申请号:CN202211175448.8
申请日:2022-09-26
Applicant: 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06N5/04
Abstract: 本发明公开了一种基于多粒度情感的对话推荐方法及系统。本方法为:1)利用对话推荐系统中的编码器对历史对话上下文语句进行语义编码;其中,所述语义编码包括历史对话上下文语义向量编码和多粒度情感感知向量编码;所述历史对话上下文语义向量编码方法为:使用词向量嵌入矩阵和位置嵌入矩阵将历史对话上下文中的每个文本单元表示为对应的文本单元语义向量,得到历史对话上下文的语义表示向量;所述多粒度情感感知向量编码方法为:对历史对话上下文中的情感词进行编码得到历史对话上下文的多粒度情感感知向量;2)对语义编码进行线性变换映射,并将映射结果与历史对话上下文进行拼接后输入对话推荐系统中的解码器,得到推荐的回复语句。
-
公开(公告)号:CN108090115B
公开(公告)日:2022-05-17
申请号:CN201711070628.9
申请日:2017-11-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/174 , H04L67/02 , H04L67/06
Abstract: 本发明提出一种针对Gzip压缩数据的过滤方法,根据Gzip压缩数据的特点,并结合KR多模式匹配算法,提升Gzip压缩数据的过滤速度,同时提高处理的实时性和安全性。本发明还提出一种针对Gzip压缩数据的过滤系统,用于执行该方法。
-
公开(公告)号:CN108073679B
公开(公告)日:2021-09-28
申请号:CN201711103789.3
申请日:2017-11-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/903
Abstract: 本发明涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。该方法包括以下步骤:1)获取基于字符出现的频率建立的基于马尔可夫链的模型;2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合。该设备包括接收器、处理器、存储器和发送器。本发明生成的随机模式串集合符合现实世界的概率分布特征,能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合,从而用于串匹配算法的功能测试和性能测试。
-
公开(公告)号:CN107016053B
公开(公告)日:2020-05-22
申请号:CN201710121255.7
申请日:2017-03-02
Applicant: 中国科学院信息工程研究所
IPC: G06F16/174 , G06F9/38
Abstract: 本发明提供一种并行的数据差分方法,步骤包括:(1)文件预处理:将源文件和目标文件初始化,生成源文件的后缀数组,创建补丁文件并初始化;(2)目标文件切分:根据线程数目切分目标文件,为切分后的每一部分目标文件增加一个线程进行独立处理;(3)线程处理过程:在每一线程中,初始化切分后的目标文件,创建patch文件,通过上述后缀数组比较源文件与目标文件生成差分数据,将该差分数据写入该patch文件;(4)主进程合并处理:将上述各线程的已写入差分数据的patch文件一起写入上述补丁文件。本方法采用多线程并行技术,来提高生成补丁的速度。
-
公开(公告)号:CN107038026A
公开(公告)日:2017-08-11
申请号:CN201710112499.9
申请日:2017-02-28
Applicant: 中国科学院信息工程研究所
IPC: G06F9/44
CPC classification number: G06F8/658
Abstract: 本发明涉及一种增量式的自动机更新方法与系统。该方法包括:1)配置处理机进行初始化操作,根据配置文件生成初始自动机,并将初始自动机发送到各扫描机;2)配置处理机根据新配置文件生成更新后的自动机,并对更新后的自动机和更新前的自动机进行数据差分,生成自动机增量;3)配置处理机将自动机增量发到各扫描机,各扫描机根据自动机增量和更新前的自动机生成更新后的自动机。本发明一方面可以尽量减少因为初始化自动机而漏掉的需要过滤的数据,同时还能应用一些初始化时间较长的新的效果比较好的串匹配算法;另一方面可以避免因为发送完整自动机而导致的网络拥塞问题。
-
-
-
-
-
-
-
-
-