一种文本处理、信息抽取方法和系统

    公开(公告)号:CN116955535A

    公开(公告)日:2023-10-27

    申请号:CN202310919011.9

    申请日:2023-07-25

    Inventor: 王峰 丁卓非

    Abstract: 本说明书实施例提供一种文本处理、信息抽取方法和系统,涉及自然语言处理技术领域。技术要点包括:获取待处理文本;将待处理文本中的至少部分字符和/或数字替换为预设符号,得到待处理文本的元模式表达式;通过机器学习模型处理待处理文本及其元模式表达式,获得用于进行信息抽取的规则。

    实体名称匹配的方法及装置
    2.
    发明公开

    公开(公告)号:CN116932547A

    公开(公告)日:2023-10-24

    申请号:CN202310871314.8

    申请日:2023-07-14

    Inventor: 丁卓非

    Abstract: 本说明书实施例提供一种实体名称匹配的方法及装置,在进行实体名称匹配时,一方面,将实体名称按照语义编码为向量,另一方面,基于编码向量构建向量索引,将向量索引作为与预先构建的索引表形成关联的关联键,从而可以基于索引将待匹配实体名称和索引表数据分组。进一步地,在分布式场景下,可以按照关联键将任务拆分,从而在单个计算实例中获取分组后的部分表数据。这样,可以减少待匹配实体名称的数据处理量。

Patent Agency Ranking