大型文档语料库中的令牌匹配
    1.
    发明公开

    公开(公告)号:CN112970024A

    公开(公告)日:2021-06-15

    申请号:CN201980048857.1

    申请日:2019-08-21

    Inventor: G·雷博维茨

    Abstract: 一种方法包括:接收包括多个实体的字典,其中每个实体具有在1个令牌与n个令牌之间的长度;构建包括n个布隆过滤器(BF)对的概率性数据表示模型,BF对从1到n被索引;利用所述实体的数据表示来自动填充所述概率性数据表示模型,其中,关于被索引为i的每个BF对:(i)利用具有至少i+1个令牌的所有所述实体的前i个令牌来填充第一BF,并且(ii)利用具有恰好i个令牌的所有所述实体来填充第二BF;接收文本语料库,其中文本语料库被分割成令牌;以及将所述文本语料库中的每个令牌与所填充的所述概率性数据表示模型自动匹配,其中所述匹配包括:以所述索引的顺序,循序地查询每个所述BF对,以确定匹配。

Patent Agency Ranking