-
公开(公告)号:CN117473980B
公开(公告)日:2024-07-05
申请号:CN202311498326.7
申请日:2023-11-10
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/205 , G06F40/14 , G06F40/151
Abstract: 本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,可应用于数据处理技术领域,该方法包括:提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;利用训练好的文件智能分析模型确定便携式文档格式文件的页面对应的预设图片格式文件的类型区域;基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据;利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对元数据信息和第二结构化数据进行关联并输出。如此,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。
-
公开(公告)号:CN117473980A
公开(公告)日:2024-01-30
申请号:CN202311498326.7
申请日:2023-11-10
Applicant: 中国医学科学院医学信息研究所
IPC: G06F40/205 , G06F40/14 , G06F40/151
Abstract: 本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,可应用于数据处理技术领域,该方法包括:提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;利用训练好的文件智能分析模型确定便携式文档格式文件的页面对应的预设图片格式文件的类型区域;基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据;利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对元数据信息和第二结构化数据进行关联并输出。如此,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。
-