-
公开(公告)号:CN116186190A
公开(公告)日:2023-05-30
申请号:CN202211503382.0
申请日:2022-11-28
Applicant: 国际商业机器公司
Abstract: 本文描述了与非结构化文档处理相关的技术。一种相关联的计算机实现的方法包括:识别与非结构化文档集合相关联的多个去重复数据块。该方法还包括:基于至少一个块频率度量,按降序对多个去重复数据块排序;选择排序最高的未处理的去重复数据块;将文本分析应用于所选择的去重复数据块;以及将文本分析的至少一个结果应用于非结构化文档集合之中的包括所选择的去重复数据块的任何文档。该方法响应于满足至少一个停止条件而被终止。
-
公开(公告)号:CN114358000B
公开(公告)日:2025-03-21
申请号:CN202111195230.4
申请日:2021-10-13
Applicant: 国际商业机器公司
IPC: G06F40/289 , G06F40/242 , G06F16/36 , G06F16/334 , G06F16/25
Abstract: 本发明的实施例提供了方法、计算机程序产品和系统。本发明的实施例可以提取结构化信息以用于非结构化文档分析。本发明的实施例可以通过识别数据库中的与业务术语表的业务术语相对应的表和列来提取结构化信息以用于非结构化文档分析。然后,本发明的实施例可以接收用于在非结构化文档中识别的感兴趣业务术语的指定。然后,本发明的实施例可以基于所识别的表和列来生成分析模块,该分析模块使得能够识别或辨认表和列的属性的属性值。然后,本发明的实施例可以基于感兴趣业务术语的指定,使用分析模块以从非结构化文档自动提取至少部分属性的值。
-
公开(公告)号:CN114358000A
公开(公告)日:2022-04-15
申请号:CN202111195230.4
申请日:2021-10-13
Applicant: 国际商业机器公司
IPC: G06F40/289 , G06F40/242 , G06F16/36 , G06F16/33 , G06F16/25
Abstract: 本发明的实施例提供了方法、计算机程序产品和系统。本发明的实施例可以提取结构化信息以用于非结构化文档分析。本发明的实施例可以通过识别数据库中的与业务术语表的业务术语相对应的表和列来提取结构化信息以用于非结构化文档分析。然后,本发明的实施例可以接收用于在非结构化文档中识别的感兴趣业务术语的指定。然后,本发明的实施例可以基于所识别的表和列来生成分析模块,该分析模块使得能够识别或辨认表和列的属性的属性值。然后,本发明的实施例可以基于感兴趣业务术语的指定,使用分析模块以从非结构化文档自动提取至少部分属性的值。
-
-