-
公开(公告)号:CN118428367A
公开(公告)日:2024-08-02
申请号:CN202410542638.1
申请日:2024-04-30
Applicant: 东南大学
IPC: G06F40/295 , G06F40/284 , G06N3/0442 , G06F40/194
Abstract: 本发明公开了面向中文表格型数据的证据检索方法,构建中文表格型数据证据检索数据集;利用命名实体识别技术将陈述转换为图结构,在图中融入陈述的关键信息;利用模板化方法进行表格的线性化,在表格的序列化表示中融入结构特征;通用预训练语言模型RoBERTa初始化陈述和表格的特征;利用图注意力网络对陈述的特征进行强化,捕捉关键信息;将得到的陈述特征和表格特征采用相似度计算后进行排序,从而根据给定的陈述寻找出最相关的表格。本发明使用通用预训练语言模型RoBERTa初始化陈述和表格的特征,高效地提取陈述和表格的特征,并采用图神经网络和循环神经网络增加对陈述和表格特征的理解,提高了证据检索的准确率,具有准确率高、计算资源需求低的特点。