一种基于模板的票据结构化信息提取方法

    公开(公告)号:CN117727057A

    公开(公告)日:2024-03-19

    申请号:CN202211103026.X

    申请日:2022-09-09

    Applicant: 复旦大学

    Abstract: 本发明提供一种基于模板的票据结构化信息提取方法,利用票据模板的先验信息,精确匹配票据中字段名与字段值,完成票据结构化信息的提取。该方法首先基于票据图片与票据模板的文字检测框和识别结果初步对齐票据图片和票据模板,确定字段值候选区域的大致区域。然后根据票据模板的字段值格式类型等信息对字段值候选区域的偏移进行计算,从而修正可能存在的票据褶皱、打印偏移造成的影响。最终确定字段名与字段值的结构化匹配。本发明能够对存在拍摄角度倾斜、票据褶皱、打印偏移等复杂情况的待识别票据图片中的字段名与字段值进行精确匹配,有效提升票据结构化信息提取的准确率和鲁棒性,解决现有方法难以正确提取复杂票据结构化信息的问题。

Patent Agency Ranking