从搜索引擎进行随机采样的方法和系统

    公开(公告)号:CN114072788B

    公开(公告)日:2023-02-03

    申请号:CN202080049008.0

    申请日:2020-07-01

    Abstract: 本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。

    来自搜索引擎的随机采样

    公开(公告)号:CN114072788A

    公开(公告)日:2022-02-18

    申请号:CN202080049008.0

    申请日:2020-07-01

    Abstract: 本发明涉及一种用于使用搜索引擎的搜索引擎接口从文档语料库提供一个或多个随机样本文档的方法。提供随机样本文档中的每个包括从基于时间的桶的集合中随机地选择基于时间的桶。搜索查询被发送到搜索引擎接口,其定义对语料库的文档的搜索,该文档具有由随机选择的基于时间的桶定义的时间窗口内的时间戳。响应于搜索查询的发送,搜索结果从搜索引擎接口接收。搜索结果包括语料库的具有在由随机选择的基于时间的桶定义的时间窗口内的时间戳的所有文档的集合。此外,随机地选择由所接收的文档集合包括的一个文档。

Patent Agency Ranking