-
公开(公告)号:CN106326475B
公开(公告)日:2019-12-27
申请号:CN201610793354.5
申请日:2016-08-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22
Abstract: 本发明涉及一种高效的静态哈希表实现方法及系统。该方法包括以下步骤:1)设定哈希桶大小hash_bit,生成多个数据对,将key[i]和value[i]对应于关键字和值;2)根据key[i]值,利用rank操作构建哈希表,并计算C表和D表;3)根据C表和D表计算rank(h),并根据rank(h)的值存储相应的key[i]和value[i];4)根据所要查询的值key判断哈希表中是否存在该元素,若存在则在对应存储位置查询并返回value值,否则访问失败;5)根据步骤4)所得的结果返回结果信息。本发明利用Rank‑select算法实现新型静态哈希表的构建与访问,可用于内容过滤、信息安全等领域。
-
公开(公告)号:CN109977298A
公开(公告)日:2019-07-05
申请号:CN201910116717.5
申请日:2019-02-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535
Abstract: 本发明提供一种从正则表达式中抽取最长精确子串的方法,步骤包括:构造正则表达式的解析树,获得可以进行解析树遍历访问的根节点;将解析树的CONCAT路径上的CONCAT节点的边都进行切分,把解析树切分成多个子树,每个子树即为一个基本单元;新建一个节点作为精确串锚点,用以存储精确串,同时记录该精确串锚点的左右邻居,该精确串为只有单个字符的基本单元或者由连续CONCAT操作符切分的字符拼接而成;通过对精确串锚点的左邻居和右邻居分别计算后缀和前缀,通过对后缀、精确串、前缀的拼接即可得到基于该精确串锚点抽取的精确子串,再通过对所有精确串锚点的计算,得到最长精确子串。
-
公开(公告)号:CN109766432A
公开(公告)日:2019-05-17
申请号:CN201810765723.9
申请日:2018-07-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于生成对抗网络的中文摘要生成方法和装置。该方法包括:1)通过对给定的中文数据集进行预处理操作形成训练集;2)构建基于生成对抗网络的中文摘要生成模型,并使用训练集对中文摘要生成模型进行训练;3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型,得到对应的摘要。本发明使用判别器最小化误差来代替最大生成摘要概率的框架;特别设计了由3个LSTMs组成的判别器,能够更好地捕获特征,辅助分类效果;提出使用以字为单位结合上下文,能够有效提升文本摘要的效率。本发明能够对大规模中文文本进行摘要的自动生成,生成的摘要更自然、连贯,具有可读性。
-
公开(公告)号:CN109614520A
公开(公告)日:2019-04-12
申请号:CN201811228936.4
申请日:2018-10-22
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901
Abstract: 本发明公开了一种面向多模式图匹配的并行加速方法。本方法为:1)生成目标领域的模式图集的多模式图索引;2)对所述多模式图索引采用逐层分组策略,即对所述多模式图索引中每一层出现的模式图进行评估,得到该层中每个模式图的匹配代价,然后根据匹配代价对该层的模式图进行分组;3)对不同分组分别分配一线程同时进行匹配计算。本发明通过采用PatternTree索引构建算法挖掘模式图间存在的结构相关性,对于结构相关性较弱的模式图设计并行匹配策略进一步提升匹配性能。
-
公开(公告)号:CN108399152A
公开(公告)日:2018-08-14
申请号:CN201810119184.1
申请日:2018-02-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数字查找树的压缩表示方法、系统、存储介质及规则匹配装置。该方法包括:采用完全矩阵表示法建立数字查找树的结点,并建立状态转换表;建立基值表,并利用数组记录叶子结点状态中对应的规则编号;利用基值表对状态行进行归一化,生成归一化矩阵;利用数组来记录归一化矩阵的状态,对归一化矩阵的状态进行去重,得到约简的状态转移矩阵;利用位图对约简的状态转移矩阵进行修正,使其中的元素能够用一个字节来表示;利用基值表、记录归一化矩阵状态的数组、位图和修正后的矩阵进行状态的匹配,并输出匹配结果。本发明以完全矩阵表示法为原型,能够保证结点间状态转移的时间复杂度为O(1),同时可大幅度减少数据结构的存储空间。
-
公开(公告)号:CN108073679A
公开(公告)日:2018-05-25
申请号:CN201711103789.3
申请日:2017-11-10
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种串匹配场景下随机模式串集合生成方法、设备和可读存储介质。该方法包括以下步骤:1)获取基于字符出现的频率建立的基于马尔可夫链的模型;2)利用基于马尔可夫链的模型生成指定长度和规模的随机模式串集合。该设备包括接收器、处理器、存储器和发送器。本发明生成的随机模式串集合符合现实世界的概率分布特征,能够依据真实模式串集合的概率分布特征生成任意长度、任意规模、特定类型的随机模式串集合,从而用于串匹配算法的功能测试和性能测试。
-
公开(公告)号:CN118332101B
公开(公告)日:2025-05-16
申请号:CN202410400400.5
申请日:2024-04-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F40/30 , G06N3/0442 , G06N3/08 , G06F16/353
Abstract: 本发明属于文本信息抽取领域,涉及一种基于分层迭代的长文本抽取式摘要生成方法和装置。该方法包括:获取文本中字符的词向量、位置向量以及结构子标题向量,将其相加作为语义编码的输入,采用长文本预训练语言模型作为语义编码器,进行语义编码;将语义编码之后的向量送入各个层级编码器中,将语义信息沿着文本结构路线由句子层级至文档层级进行分层传递,然后从文档层级至句子层级再次进行分层传递,实现迭代更新,得到各个层级的隐层表示;通过融合各个层级的隐层表示全面地对每个句子进行评价,选出最优的摘要句。本发明能够克服现有抽取式摘要面向长文本时计算资源消耗大,存在语义损失以及长文本结构建模缺失的问题。
-
公开(公告)号:CN118395994B
公开(公告)日:2025-05-13
申请号:CN202410327987.1
申请日:2024-03-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种零样本对话状态追踪方法,其步骤包括:1)划分阶段:对于每一段对话状态标注的对话文本Ct,利用预训练语言模型f将对话文本Ct转换成对话文本向量et,然后利用聚类技术将各对话文本向量归类到其不同的子集中,得到K个子集;2)解决阶段:将子集中的每一文本向量作为一个样本,分别利用所得每一子集训练语义独立的状态追踪模型,共得到K个训练后的状态追踪模型;3)合并阶段:首先进行关系挖掘,将一个给定的对话文本C′t转换为语义向量e′t,计算每一子集的语义空间和对话文本C′t之间的关系δ;然后进行聚合推理,根据每一训练后的状态追踪模型及其对应的关系δ预测该对话文本C′t对应的对话状态。
-
公开(公告)号:CN118779746A
公开(公告)日:2024-10-15
申请号:CN202410746408.7
申请日:2024-06-11
Applicant: 中国科学院信息工程研究所
IPC: G06F18/2415 , G06N3/042 , G06N3/0455
Abstract: 本发明涉及一种基于关系向量的异配图表示学习方法和系统。该方法是一种变分GNN模型,创新性地将细粒度关系学习融入到消息传递过程中,从而实现对图上的同配性和异配性的建模。该方法在统一的框架中对关系向量生成和节点表示进行建模,从而能够更直接地将关系向量学到的知识转化为节点表示,其中编码器实现关系向量生成,解码器实现节点表示。本发明通过引入关系向量建模了异配图的边复杂语义关系,从而促进了异配图中异配结构的建模,能够实现更好的分类结果。
-
公开(公告)号:CN118395994A
公开(公告)日:2024-07-26
申请号:CN202410327987.1
申请日:2024-03-21
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种零样本对话状态追踪方法,其步骤包括:1)划分阶段:对于每一段对话状态标注的对话文本Ct,利用预训练语言模型f将对话文本Ct转换成对话文本向量et,然后利用聚类技术将各对话文本向量归类到其不同的子集中,得到K个子集;2)解决阶段:将子集中的每一文本向量作为一个样本,分别利用所得每一子集训练语义独立的状态追踪模型,共得到K个训练后的状态追踪模型;3)合并阶段:首先进行关系挖掘,将一个给定的对话文本C′t转换为语义向量e′t,计算每一子集的语义空间和对话文本C′t之间的关系δ;然后进行聚合推理,根据每一训练后的状态追踪模型及其对应的关系δ预测该对话文本C′t对应的对话状态。
-
-
-
-
-
-
-
-
-