-
公开(公告)号:CN117312485A
公开(公告)日:2023-12-29
申请号:CN202311257181.1
申请日:2023-09-27
Applicant: 东北大学
IPC: G06F16/31 , G06F16/33 , G06F16/338
Abstract: 本发明提供一种面向数据库管理系统的日志数据的正则表达式匹配方法,涉及数据库管理技术领域。该方法首先获取大量相似日志数据,建立前缀树和后缀树;并对正则表达式建立有限状态自动机,将正则表达式切割成前缀正则表达式路径和后缀正则表达式路径;再分别在前缀树和后缀树上进行查找获得一系列前缀路径倒排列表和后缀路径倒排列表;然后对以正则表达式前缀为前缀的日志的出现位置列表和以正则表达式后缀为后缀的日志的出现位置列表进行归并操作得出与该正则表达式匹配的字符可能出现的位置;最后利用有限状态自动机对与正则表达式匹配的字符可能出现的位置上的各词与正则表达式进行匹配并返回结果。
-
公开(公告)号:CN117194168A
公开(公告)日:2023-12-08
申请号:CN202311215650.3
申请日:2023-09-20
Abstract: 本发明提供一种面向Web服务器日志的分类压缩与搜索方法,涉及Web服务器技术领域。根据日志数据的相似性将数据按变量类型分类压缩,将相似字符串聚类,提取每类中出现次数最多的字符串作为基准串,通过只存储与基准串相比发生变化的差异性数据,实现对Web服务器日志的分类压缩;分类增量存储数据,避免所有日志数据都要存储的情况,大大减少内存空间的使用。通过解析查询语句来确定待查询数据的变量类型,根据变量类型查询全局变量表或根据基准串gram建立的倒排索引,实现在压缩数据上的分类搜索,大大减少内存的使用,克服日志压缩与查询之间的互斥性,加速查询。
-