文档信息抽取方法及系统
    1.
    发明公开

    公开(公告)号:CN117787258A

    公开(公告)日:2024-03-29

    申请号:CN202311177727.2

    申请日:2023-09-12

    Abstract: 本发明公开了一种文档信息抽取方法及系统,用于文档信息抽取,该方法包括:遍历文档的页面,根据关键字匹配目录页和/或正文页;提取目录页中的标题,形成第一标题集合;识别并提取正文页内容中的图表后,将正文页内容根据元数据的位置分布聚类形成行或段;提取正文页内容中的标题,形成第二标题集合,建立第二标题集合中标题与正文页内容的第一映射;将第一标题集合中的标题与第二标题集合中的标题进行匹配,建立第一标题集合中的标题与第二标题集合中的标题的第二映射。本发明提出的技术方案在现有文档信息处理技术的基础上,规避了图表对提取正文内容的干扰,实现了正文内容的自动分段,以及文档正文内容与目录的匹配。

    PDF文档图表提取方法、装置、电子设备及存储介质

    公开(公告)号:CN117765557A

    公开(公告)日:2024-03-26

    申请号:CN202311175987.6

    申请日:2023-09-12

    Abstract: 本申请公开了一种PDF文档图表提取方法、装置、电子设备及存储介质,属于计算机技术领域,其中,PDF文档图表提取方法包括:获取目标PDF文档;提取目标PDF文档中的题注;根据题注定位图表所在的PDF页面,并确定图表区域;当图表区域为独立页面,根据正则表达式提取图表区域的图表,当图表区域为跨页区域,则对图表进行合并操作,得到完整图表,根据正则表达式提取完整图表。该方法利用了题注对图表进行定位,从而可以准确地确定图表所在区域,进而可以准确提取PDF文档中的图表数据。

    基于科技文档的领域趋势分析方法及系统

    公开(公告)号:CN116204608A

    公开(公告)日:2023-06-02

    申请号:CN202310228033.0

    申请日:2023-03-10

    Applicant: 安徽大学

    Abstract: 本发明涉及数据信息处理技术领域,公开了基于科技文档的领域趋势分析方法,包括:收集论文和专利数据后进行整理,形成科技文档后储存;自定义查询属性值生成科技文档筛选规则;将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作;根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。可以通过成熟的爬虫方案获取两种科技文档,并且对文档进行元数据识别和存储,方便后续的属性查询和趋势分析;从多种角度、多种属性进行对科技文档进行分析,最后得出领域趋势分析,能够实现领域趋势分析功能,并且结果展示效果丰富,结果完整。

    一种粉煤灰生物炭复合材料及其制备方法和应用

    公开(公告)号:CN115957718A

    公开(公告)日:2023-04-14

    申请号:CN202211649787.5

    申请日:2022-12-21

    Applicant: 安徽大学

    Abstract: 本发明提供了一种粉煤灰生物炭复合材料及其制备方法和应用,属于重金属处理领域。粉煤灰生物炭复合材料,由秸秆和碱熔粉煤灰制备得到;所述秸秆与碱熔粉煤灰的质量比为4:1;所述碱熔粉煤灰由粉煤灰和碱性物质制备得到,所述粉煤灰与碱性物质的质量比为1:1。BCs的最大吸附量分别达到14.84、15.56和17.85mgg‑1。FBCs的最大吸附量分别达到68.24、84.25和137.1mgg‑1。在相同温度下,粉煤灰生物炭复合材料的吸附能力比原始玉米秸秆生物炭增加了4.6、5.4和7.7倍。这表明粉煤灰复合后的玉米秸秆生物炭的吸附性能得到了极大的提高。

Patent Agency Ranking