基于字符集变换的自动机空间压缩方法及系统

    公开(公告)号:CN110401451A

    公开(公告)日:2019-11-01

    申请号:CN201910505421.2

    申请日:2019-06-12

    Abstract: 本发明提供一种基于字符集变换的自动机空间压缩方法,步骤包括:将模式串集构建成自动机,并生成状态转移矩阵;读取状态转移矩阵的各个状态行,计算最佳变换参数、最小有效后继状态和最大有效后继状态;根据状态转移矩阵和最佳变换参数,记录数据结构,将状态行替换为变换后的有效状态行;读取目标文本的字符,根据字符当前状态,利用双射函数进行字符变换,得到变换后的字符,符合条件下得到后继状态,实现压缩。本发明还提供一种基于字符集变换的自动机空间压缩系统,包括规则编译器、变换参数生成器、状态行变换器、比较器、压缩自动机存储器、状态寄存器、字符集变换器及文本扫描器。

    一种串匹配场景下数据集生成方法、设备和可读存储介质

    公开(公告)号:CN107515897A

    公开(公告)日:2017-12-26

    申请号:CN201710589808.1

    申请日:2017-07-19

    CPC classification number: G06F16/90344

    Abstract: 本发明涉及一种串匹配场景下数据集生成方法、设备和可读存储介质。该方法包括以下步骤:1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;3)输出生成的随机模式串集合和文本数据集。该设备包括通过总线连接的接收器、处理器、存储器和发送器,所述存储器用于存储串匹配场景下数据集生成指令。本发明能够生成预设规模预设长度的随机模式串集合,根据已生成的随机模式串集合可以构造指定命中水平的文本数据集,该随机模式串集合和文本数据集能够用于串匹配算法的功能测试和性能测试,对串匹配算法的进一步研究和性能提升有重要的作用。

    一种基于多粒度情感的对话推荐方法及系统

    公开(公告)号:CN115630145A

    公开(公告)日:2023-01-20

    申请号:CN202211175448.8

    申请日:2022-09-26

    Abstract: 本发明公开了一种基于多粒度情感的对话推荐方法及系统。本方法为:1)利用对话推荐系统中的编码器对历史对话上下文语句进行语义编码;其中,所述语义编码包括历史对话上下文语义向量编码和多粒度情感感知向量编码;所述历史对话上下文语义向量编码方法为:使用词向量嵌入矩阵和位置嵌入矩阵将历史对话上下文中的每个文本单元表示为对应的文本单元语义向量,得到历史对话上下文的语义表示向量;所述多粒度情感感知向量编码方法为:对历史对话上下文中的情感词进行编码得到历史对话上下文的多粒度情感感知向量;2)对语义编码进行线性变换映射,并将映射结果与历史对话上下文进行拼接后输入对话推荐系统中的解码器,得到推荐的回复语句。

    一种并行的数据差分方法
    29.
    发明授权

    公开(公告)号:CN107016053B

    公开(公告)日:2020-05-22

    申请号:CN201710121255.7

    申请日:2017-03-02

    Abstract: 本发明提供一种并行的数据差分方法,步骤包括:(1)文件预处理:将源文件和目标文件初始化,生成源文件的后缀数组,创建补丁文件并初始化;(2)目标文件切分:根据线程数目切分目标文件,为切分后的每一部分目标文件增加一个线程进行独立处理;(3)线程处理过程:在每一线程中,初始化切分后的目标文件,创建patch文件,通过上述后缀数组比较源文件与目标文件生成差分数据,将该差分数据写入该patch文件;(4)主进程合并处理:将上述各线程的已写入差分数据的patch文件一起写入上述补丁文件。本方法采用多线程并行技术,来提高生成补丁的速度。

    一种增量式的自动机更新方法与系统

    公开(公告)号:CN107038026A

    公开(公告)日:2017-08-11

    申请号:CN201710112499.9

    申请日:2017-02-28

    CPC classification number: G06F8/658

    Abstract: 本发明涉及一种增量式的自动机更新方法与系统。该方法包括:1)配置处理机进行初始化操作,根据配置文件生成初始自动机,并将初始自动机发送到各扫描机;2)配置处理机根据新配置文件生成更新后的自动机,并对更新后的自动机和更新前的自动机进行数据差分,生成自动机增量;3)配置处理机将自动机增量发到各扫描机,各扫描机根据自动机增量和更新前的自动机生成更新后的自动机。本发明一方面可以尽量减少因为初始化自动机而漏掉的需要过滤的数据,同时还能应用一些初始化时间较长的新的效果比较好的串匹配算法;另一方面可以避免因为发送完整自动机而导致的网络拥塞问题。

Patent Agency Ranking