-
公开(公告)号:CN116795833A
公开(公告)日:2023-09-22
申请号:CN202310217285.3
申请日:2023-03-08
Applicant: 复旦大学
IPC: G06F16/22 , G06F16/2458 , G06F16/248 , G06F16/28 , G06F16/901
Abstract: 本发明属于行业标准信息数字化技术领域,具体为一种基于图注意力网络的表格指标信息抽取方法。本发明包括:表格预处理;单元格信息编码;邻接列表分析;表格信息关联分析;分类和指标信息计算;表格预处理是对表格进行图网络结构化处理,得到表格信息的图网络结构;然后分别对表格中单元格进行词向量编码和邻接列表分析;邻接列表分析包括在取得单元格的行邻接列表和列邻接列表后,结合词向量编码,得到同行或同列表单元格语义信息;表格信息关联度分析包括表格信息关联度分析和行列信息传递关系分析;分类和指标信息计算,使用线性分类器进行分类得到当前单元格的指标归类结果。本发明效率更高,得到的表格指标信息更正确、更完整。