-
公开(公告)号:CN114072788B
公开(公告)日:2023-02-03
申请号:CN202080049008.0
申请日:2020-07-01
Applicant: 国际商业机器公司
IPC: G06F16/95
Abstract: 本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。
-
公开(公告)号:CN115221936A
公开(公告)日:2022-10-21
申请号:CN202210356193.9
申请日:2022-03-28
Applicant: 国际商业机器公司
Abstract: 一种计算机实现的方法包括:处理数据库的记录中的每个记录的非结构化对象,以用于识别每个记录的非结构化对象中的一个或多个属性值的集合。可以比较数据库的两个记录的非结构化属性值集合,以用于确定两个集合之间的相似程度。可以基于比较结果,确定两个记录是否代表相同的实体。
-
公开(公告)号:CN114072788A
公开(公告)日:2022-02-18
申请号:CN202080049008.0
申请日:2020-07-01
Applicant: 国际商业机器公司
IPC: G06F16/95
Abstract: 本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。
-
公开(公告)号:CN114626366B
公开(公告)日:2025-05-02
申请号:CN202111434513.X
申请日:2021-11-29
Applicant: 国际商业机器公司
IPC: G06F40/237 , G06F40/242 , G06F40/284
Abstract: 本公开涉及数据词汇表的维护。系统可以接收包括词语列表的数据词汇表。系统然后可以测量来自词语列表的词语集合的使用维度。系统可基于使用维度从集合中选择候选词语,并对候选词语执行维护动作。
-
公开(公告)号:CN114386085A
公开(公告)日:2022-04-22
申请号:CN202111208569.3
申请日:2021-10-18
Applicant: 国际商业机器公司
Abstract: 本发明公开涉及掩蔽文档中的敏感信息。示例性实施例公开了一种用于保护敏感信息的方法、计算机程序产品和计算机系统。示例性实施例可以包括:使用倒排文本索引来评估倒排文本索引的索引令牌的一个或多个统计度量,使用一个或多个统计度量来选择候选令牌集合,从所述倒排文本索引中提取元数据,将该候选令牌集合与对应的令牌元数据相关联,对至少一个文档进行令牌化,从而产生一个或多个文档令牌,将一个或多个文档令牌与候选令牌集合进行比较,选择要掩蔽文档令牌集合,根据相关联的令牌元数据来选择包括敏感信息的文档令牌集合的至少一部分,掩蔽文档令牌集合的至少一部分,以及提供一个或多个掩蔽文档。
-
公开(公告)号:CN104765621B
公开(公告)日:2018-05-01
申请号:CN201410001336.X
申请日:2014-01-02
Applicant: 国际商业机器公司
IPC: G06F8/61
CPC classification number: G06F17/3089 , G06F9/542 , H04L67/26 , H04L67/32 , H04L67/34
Abstract: 本发明公开了一种在集群节点中部署程序的方法和系统,方法包括:获得集群中该节点上要部署的程序与集群中要部署的其它程序之间的依赖关系;获得订阅/发布服务器的IP地址和连接信息;连接订阅/发布服务器;向订阅/发布服务器订阅该程序依赖的其它程序的消息;以及响应于从订阅/发布服务器得到订阅的其它程序的消息,部署该程序。该方法和系统可以在集群中快速并且容易地部署程序,节省程序开发人员的劳动。
-
公开(公告)号:CN104765621A
公开(公告)日:2015-07-08
申请号:CN201410001336.X
申请日:2014-01-02
Applicant: 国际商业机器公司
IPC: G06F9/445
CPC classification number: G06F17/3089 , G06F9/542 , H04L67/26 , H04L67/32 , H04L67/34
Abstract: 本发明公开了一种在集群节点中部署程序的方法和系统,方法包括:获得集群中该节点上要部署的程序与集群中要部署的其它程序之间的依赖关系;获得订阅/发布服务器的IP地址和连接信息;连接订阅/发布服务器;向订阅/发布服务器订阅该程序依赖的其它程序的消息;以及响应于从订阅/发布服务器得到订阅的其它程序的消息,部署该程序。该方法和系统可以在集群中快速并且容易地部署程序,节省程序开发人员的劳动。
-
公开(公告)号:CN114358000B
公开(公告)日:2025-03-21
申请号:CN202111195230.4
申请日:2021-10-13
Applicant: 国际商业机器公司
IPC: G06F40/289 , G06F40/242 , G06F16/36 , G06F16/334 , G06F16/25
Abstract: 本发明的实施例提供了方法、计算机程序产品和系统。本发明的实施例可以提取结构化信息以用于非结构化文档分析。本发明的实施例可以通过识别数据库中的与业务术语表的业务术语相对应的表和列来提取结构化信息以用于非结构化文档分析。然后,本发明的实施例可以接收用于在非结构化文档中识别的感兴趣业务术语的指定。然后,本发明的实施例可以基于所识别的表和列来生成分析模块,该分析模块使得能够识别或辨认表和列的属性的属性值。然后,本发明的实施例可以基于感兴趣业务术语的指定,使用分析模块以从非结构化文档自动提取至少部分属性的值。
-
公开(公告)号:CN114386085B
公开(公告)日:2024-12-20
申请号:CN202111208569.3
申请日:2021-10-18
Applicant: 国际商业机器公司
Abstract: 本发明公开涉及掩蔽文档中的敏感信息。示例性实施例公开了一种用于保护敏感信息的方法、计算机程序产品和计算机系统。示例性实施例可以包括:使用倒排文本索引来评估倒排文本索引的索引令牌的一个或多个统计度量,使用一个或多个统计度量来选择候选令牌集合,从所述倒排文本索引中提取元数据,将该候选令牌集合与对应的令牌元数据相关联,对至少一个文档进行令牌化,从而产生一个或多个文档令牌,将一个或多个文档令牌与候选令牌集合进行比较,选择要掩蔽文档令牌集合,根据相关联的令牌元数据来选择包括敏感信息的文档令牌集合的至少一部分,掩蔽文档令牌集合的至少一部分,以及提供一个或多个掩蔽文档。
-
-
-
-
-
-
-
-