-
公开(公告)号:CN111401062A
公开(公告)日:2020-07-10
申请号:CN202010216591.1
申请日:2020-03-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289 , G06F16/35 , G06N3/04
Abstract: 本说明书实施例提供一种文本的风险识别方法、装置及设备,其中,方法包括:标注待进行风险识别的第一文本中各词汇的风险权重,所述风险权重用于表征词汇的风险程度;根据所述第一文本中各词汇的风险权重从所述第一文本中提取至少一个文本片段形成第二文本;每个所述文本片段中词汇的风险权重满足预设权重条件;对所述第二文本采用预先训练得到的文本分类模型进行风险识别,得到所述第二文本的风险识别结果。本说明书实施例的方案,能够在保证文本分类模型处理能力的情况下防止风险漏识,有效提高文本的风险识别效率。
-
公开(公告)号:CN119337888A
公开(公告)日:2025-01-21
申请号:CN202411426918.2
申请日:2024-10-12
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F40/30 , G06N5/04 , G06F16/353
Abstract: 本说明书实施例提供了一种针对大语言模型的样本重排序方法,包括针对范例样本集的多轮迭代处理,范例样本集中各范例样本具有在目标语义下的语义标签,其中任意一轮迭代处理包括:从本轮的当前范例样本集中获取任意范例样本,将其作为输入文本,与本轮的当前序列共同输入大语言模型,使得大语言模型将当前序列中的文本作为范例,推断得到输入文本的若干推断标签的概率。根据若干推断标签的概率,确定范例样本对应的第一指标。对当前范例样本集中的各个范例样本,基于各自的第一指标进行排序,得到第一序列。从第一序列中选取目标范例样本,将其从当前范例样本集移动到当前序列尾部。
-
公开(公告)号:CN119336872A
公开(公告)日:2025-01-21
申请号:CN202411426214.5
申请日:2024-10-12
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06N5/022 , G06N5/04
Abstract: 本说明书提供一种文本生成方法。首先,获取待回答问题和检索到的针对待回答问题的文档集。并将文档集中的每个文档输入问答模型,得到问答模型针对每个文档的预测结果。并基于每个文档对应的预测结果确定该文档与待回答问题之间的第一相关度。并根据第一相关度来确定输入问答模型的目标文档,以通过问答模型生成针对待回答问题的文本。通过问答模型针对每个文档生成的预测结果来对文档集中的文档选取输入问答模型的目标文档,使得输入问答模型的目标文档更符合问答模型的需求,提升了生成的文本的准确度。
-
公开(公告)号:CN119202184A
公开(公告)日:2024-12-27
申请号:CN202411322485.6
申请日:2024-09-20
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本说明书实施例公开了一种数据处理方法、装置及设备,该方法应用于开放域问答系统,所述开放域问答系统中包括检索器和阅读器,该方法包括:接收用户输入的目标问题数据;基于目标问题数据的内容,对目标问题数据对应的用户意图进行扩展处理,得到一个或多个不同的澄清查询数据;分别将每个澄清查询数据输入到检索器中,得到每个澄清查询数据对应的检索数据;确定每个澄清查询数据对应的检索数据与目标问题数据之间的相关性信息,并基于确定的相关性信息对每个澄清查询数据对应的检索数据进行重写处理,得到重写的检索数据;基于重写的检索数据,通过阅读器确定目标问题数据对应的答案数据,并输出该答案数据。
-
公开(公告)号:CN117711403A
公开(公告)日:2024-03-15
申请号:CN202311743634.1
申请日:2023-12-18
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种文本纠错模型训练方法、装置、存储介质及电子设备。将预先采集的语音样本输入到语音识别模型,得到所述语音识别模型输出的转译文本,判断所述转译文本中是否包含预先确定的易错词汇,若包含,则确定所述转译文本中包含的易错词汇对应的扩展词汇,根据所述扩展词汇,对所述转译文本进行扩展,得到增强样本,将所述增强样本作为样本,所述转译文本作为标注,对文本纠错模型进行训练。通过这种方法,能快速构造出了大量的增强样本,并确定所述增强样本对应的标注,对所述文本纠错模型进行训练,提升所述文本纠错模型的纠错性能。
-
公开(公告)号:CN117591622A
公开(公告)日:2024-02-23
申请号:CN202311561050.2
申请日:2023-11-21
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种模型训练和业务执行方法、装置、存储介质及设备。该模型训练方法包括:获取目标业务领域下的业务数据,作为第一样本数据,以及获取目标业务领域下的各实体类型对应的第一实体描述信息;将第一样本数据以及第一实体描述信息输入目标阅读理解模型,根据第一实体描述信息确定第一样本数据中包含的各实体,并将确定出的各实体作为第一样本数据对应的伪标签;将第一样本数据输入待训练的实体抽取模型,确定第一样本数据中包含的各实体,作为第一样本数据对应的预测实体;以最小化第一样本数据对应的预测实体与伪标签之间的偏差为优化目标,对实体抽取模型进行训练,得到目标实体抽取模型。
-
公开(公告)号:CN111401062B
公开(公告)日:2023-04-18
申请号:CN202010216591.1
申请日:2020-03-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/289 , G06F16/35 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本说明书实施例提供一种文本的风险识别方法、装置及设备,其中,方法包括:标注待进行风险识别的第一文本中各词汇的风险权重,所述风险权重用于表征词汇的风险程度;根据所述第一文本中各词汇的风险权重从所述第一文本中提取至少一个文本片段形成第二文本;每个所述文本片段中词汇的风险权重满足预设权重条件;对所述第二文本采用预先训练得到的文本分类模型进行风险识别,得到所述第二文本的风险识别结果。本说明书实施例的方案,能够在保证文本分类模型处理能力的情况下防止风险漏识,有效提高文本的风险识别效率。
-
-
-
-
-
-