-
公开(公告)号:CN116227432A
公开(公告)日:2023-06-06
申请号:CN202310199456.4
申请日:2023-02-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/12 , G06F40/126 , G06V30/19
Abstract: 本说明书实施例公开了一种文本处理、同形异码字确定方法、装置和设备,所述文本处理方法可在获取待处理文本后,针对所述待处理文本中的第一字符,确定目标字符集中是否包含所述第一字符,其中,所述第一字符为所述待处理文本中的任一字符,所述目标字符集中的字符能够被后续文本处理任务正确处理;在所述目标字符集中不包含所述第一字符的情况下,确定所述目标字符集中是否存在第二字符,其中,所述第二字符为所述第一字符在所述目标字符集中的同形异码字;在所述目标字符集中存在所述第二字符的情况下,将所述待处理文本中的所述第一字符替换为所述第二字符。
-
公开(公告)号:CN116431762A
公开(公告)日:2023-07-14
申请号:CN202310247073.X
申请日:2023-03-08
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例公开了一种文本生成模型训练及文本生成方法、装置以及存储介质。在各输出时间步计算样本输入序列中各字符的复制概率,以及在各输出时间步计算词表空间中各字符的生成概率;基于各字符在各输出时间步的复制概率和生成概率确定各输出时间步的样本输出字符,进而得到样本输入序列对应的样本输出序列;根据标准输出序列以及样本输出序列计算输出损失,训练文本生成模型。文本生成模型在训练过程中就学习到将输入序列中的重要字符复制到输出中以得到高可信的输出序列。
-