-
公开(公告)号:CN118606286A
公开(公告)日:2024-09-06
申请号:CN202410559790.0
申请日:2024-05-08
Applicant: 复旦大学
IPC: G06F16/18 , G06F40/205 , G06F40/30 , G06F40/186 , G06F40/289 , G06F18/25 , G06F18/24 , G06F18/22 , G06N3/096 , G06N5/04 , G06N3/045
Abstract: 本发明属于自然语言处理技术领域,具体为基于大语言模型的语义日志解析系统。本发明系统包括:子词特征提取模块,通过删除因果掩码使LLAMA2的结构适应解析任务,利用大语言模型的丰富知识为每个子词提取准确的特征表示;语义识别模块,基于多头交叉注意力机制,整合每个子词的特征,进而提取日志模板并预测日志参数的语义类别;解析树模块,以树形结构存储解析得到的模板,与解析过程同步构建和更新,用于加速大规模实时日志的推理过程。本发明在常规解析和语义解析数据集上均取得了满意的效果。本发明有较强的泛化性,能捕获日志的语义特征,并有效缓解了大规模日志数据下解析效率低的问题,能够为日志相关的下游任务提供有力支持。