-
公开(公告)号:CN116955535A
公开(公告)日:2023-10-27
申请号:CN202310919011.9
申请日:2023-07-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/35 , G06F40/258
Abstract: 本说明书实施例提供一种文本处理、信息抽取方法和系统,涉及自然语言处理技术领域。技术要点包括:获取待处理文本;将待处理文本中的至少部分字符和/或数字替换为预设符号,得到待处理文本的元模式表达式;通过机器学习模型处理待处理文本及其元模式表达式,获得用于进行信息抽取的规则。
-
公开(公告)号:CN116932547A
公开(公告)日:2023-10-24
申请号:CN202310871314.8
申请日:2023-07-14
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 丁卓非
IPC: G06F16/22 , G06F40/289 , G06F18/25 , G06F18/23213 , G06F18/24
Abstract: 本说明书实施例提供一种实体名称匹配的方法及装置,在进行实体名称匹配时,一方面,将实体名称按照语义编码为向量,另一方面,基于编码向量构建向量索引,将向量索引作为与预先构建的索引表形成关联的关联键,从而可以基于索引将待匹配实体名称和索引表数据分组。进一步地,在分布式场景下,可以按照关联键将任务拆分,从而在单个计算实例中获取分组后的部分表数据。这样,可以减少待匹配实体名称的数据处理量。
-