从搜索引擎进行随机采样的方法和系统

    公开(公告)号:CN114072788B

    公开(公告)日:2023-02-03

    申请号:CN202080049008.0

    申请日:2020-07-01

    Abstract: 本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。

    来自搜索引擎的随机采样

    公开(公告)号:CN114072788A

    公开(公告)日:2022-02-18

    申请号:CN202080049008.0

    申请日:2020-07-01

    Abstract: 本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。

    掩蔽文档中的敏感信息
    5.
    发明公开

    公开(公告)号:CN114386085A

    公开(公告)日:2022-04-22

    申请号:CN202111208569.3

    申请日:2021-10-18

    Abstract: 本发明公开涉及掩蔽文档中的敏感信息。示例性实施例公开了一种用于保护敏感信息的方法、计算机程序产品和计算机系统。示例性实施例可以包括:使用倒排文本索引来评估倒排文本索引的索引令牌的一个或多个统计度量,使用一个或多个统计度量来选择候选令牌集合,从所述倒排文本索引中提取元数据,将该候选令牌集合与对应的令牌元数据相关联,对至少一个文档进行令牌化,从而产生一个或多个文档令牌,将一个或多个文档令牌与候选令牌集合进行比较,选择要掩蔽文档令牌集合,根据相关联的令牌元数据来选择包括敏感信息的文档令牌集合的至少一部分,掩蔽文档令牌集合的至少一部分,以及提供一个或多个掩蔽文档。

    从非结构化文档提取结构化信息

    公开(公告)号:CN114358000B

    公开(公告)日:2025-03-21

    申请号:CN202111195230.4

    申请日:2021-10-13

    Abstract: 本发明的实施例提供了方法、计算机程序产品和系统。本发明的实施例可以提取结构化信息以用于非结构化文档分析。本发明的实施例可以通过识别数据库中的与业务术语表的业务术语相对应的表和列来提取结构化信息以用于非结构化文档分析。然后,本发明的实施例可以接收用于在非结构化文档中识别的感兴趣业务术语的指定。然后,本发明的实施例可以基于所识别的表和列来生成分析模块,该分析模块使得能够识别或辨认表和列的属性的属性值。然后,本发明的实施例可以基于感兴趣业务术语的指定,使用分析模块以从非结构化文档自动提取至少部分属性的值。

    掩蔽文档中的敏感信息

    公开(公告)号:CN114386085B

    公开(公告)日:2024-12-20

    申请号:CN202111208569.3

    申请日:2021-10-18

    Abstract: 本发明公开涉及掩蔽文档中的敏感信息。示例性实施例公开了一种用于保护敏感信息的方法、计算机程序产品和计算机系统。示例性实施例可以包括:使用倒排文本索引来评估倒排文本索引的索引令牌的一个或多个统计度量,使用一个或多个统计度量来选择候选令牌集合,从所述倒排文本索引中提取元数据,将该候选令牌集合与对应的令牌元数据相关联,对至少一个文档进行令牌化,从而产生一个或多个文档令牌,将一个或多个文档令牌与候选令牌集合进行比较,选择要掩蔽文档令牌集合,根据相关联的令牌元数据来选择包括敏感信息的文档令牌集合的至少一部分,掩蔽文档令牌集合的至少一部分,以及提供一个或多个掩蔽文档。

    用于联合认证的基于第二因素的域选择

    公开(公告)号:CN116569518A

    公开(公告)日:2023-08-08

    申请号:CN202180082481.3

    申请日:2021-12-05

    Abstract: 在用于认证用户名的方法中,处理器维护用户名和域的映射。处理器基于认证应用接收用户名和针对用户名的基于时间的一次性密码代码(TOTP代码)。处理器在接收到TOTP代码时:基于接收的用户名和接收的TOTP从该映射中确定域;以及请求该域中的与用户名相关的证书的输入。在接收到请求的证书时,处理器通过确定接收的证书匹配用于该域的预期证书来认证用户名。

Patent Agency Ranking