-
公开(公告)号:CN111552706A
公开(公告)日:2020-08-18
申请号:CN202010343982.X
申请日:2020-04-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/242 , G06Q50/00
Abstract: 本说明书实施例公开了一种舆情信息的分组方法、装置及设备,该方法包括:获取待分组的目标舆情信息;分别基于至少一种舆情分组算法对所述目标舆情信息进行分析,确定所述目标舆情信息对应的分组标识,其中,所述至少一种舆情分组算法中至少包括基于舆情信息中包含的关键要素信息对所述舆情信息进行分组的第一舆情分组算法;将所述目标舆情信息存储到确定的所述分组标识对应的舆情分组中。
-
公开(公告)号:CN119337888A
公开(公告)日:2025-01-21
申请号:CN202411426918.2
申请日:2024-10-12
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F40/30 , G06N5/04 , G06F16/353
Abstract: 本说明书实施例提供了一种针对大语言模型的样本重排序方法,包括针对范例样本集的多轮迭代处理,范例样本集中各范例样本具有在目标语义下的语义标签,其中任意一轮迭代处理包括:从本轮的当前范例样本集中获取任意范例样本,将其作为输入文本,与本轮的当前序列共同输入大语言模型,使得大语言模型将当前序列中的文本作为范例,推断得到输入文本的若干推断标签的概率。根据若干推断标签的概率,确定范例样本对应的第一指标。对当前范例样本集中的各个范例样本,基于各自的第一指标进行排序,得到第一序列。从第一序列中选取目标范例样本,将其从当前范例样本集移动到当前序列尾部。
-
公开(公告)号:CN119336872A
公开(公告)日:2025-01-21
申请号:CN202411426214.5
申请日:2024-10-12
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06N5/022 , G06N5/04
Abstract: 本说明书提供一种文本生成方法。首先,获取待回答问题和检索到的针对待回答问题的文档集。并将文档集中的每个文档输入问答模型,得到问答模型针对每个文档的预测结果。并基于每个文档对应的预测结果确定该文档与待回答问题之间的第一相关度。并根据第一相关度来确定输入问答模型的目标文档,以通过问答模型生成针对待回答问题的文本。通过问答模型针对每个文档生成的预测结果来对文档集中的文档选取输入问答模型的目标文档,使得输入问答模型的目标文档更符合问答模型的需求,提升了生成的文本的准确度。
-
公开(公告)号:CN119206311A
公开(公告)日:2024-12-27
申请号:CN202411223197.5
申请日:2024-09-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V10/764 , G06V10/26 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例公开了一种用于检测图像的方法、装置、存储介质及电子设备,获得已训练的图像检测模型;根据目标图像获得对应的全局输入信息及局部输入信息;将局部输入信息输入局部图片编码模型获得输出的局部特征信息,将局部特征信息输入掩膜回归模型获得输出的目标掩膜;将全局输入信息输入全局图片编码模型获得输出的全局特征信息,将全局输入信息输入语义分割模型获得输出的所语义特征信息;将语义特征信息、全局特征信息及局部特征信息输入检测分数判别模型获得输出的目标图像生成结果,将目标图像生成结果及目标掩膜作为图像检测模型对于目标图像的输出。
-
公开(公告)号:CN119202184A
公开(公告)日:2024-12-27
申请号:CN202411322485.6
申请日:2024-09-20
Applicant: 中国科学院软件研究所 , 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本说明书实施例公开了一种数据处理方法、装置及设备,该方法应用于开放域问答系统,所述开放域问答系统中包括检索器和阅读器,该方法包括:接收用户输入的目标问题数据;基于目标问题数据的内容,对目标问题数据对应的用户意图进行扩展处理,得到一个或多个不同的澄清查询数据;分别将每个澄清查询数据输入到检索器中,得到每个澄清查询数据对应的检索数据;确定每个澄清查询数据对应的检索数据与目标问题数据之间的相关性信息,并基于确定的相关性信息对每个澄清查询数据对应的检索数据进行重写处理,得到重写的检索数据;基于重写的检索数据,通过阅读器确定目标问题数据对应的答案数据,并输出该答案数据。
-
公开(公告)号:CN118535730A
公开(公告)日:2024-08-23
申请号:CN202410551463.0
申请日:2024-05-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/35 , G06F40/295 , G06N3/0455 , G06N3/08
Abstract: 本说明书实施例公开了一种实体抽取模型的训练方法,该方法在NER训练框架中增加一个顺序预测模块,通过NER主框架学习输入文本的实体字符集合,通过顺序预测模块来学习输入文本的实体字符顺序。通过此方式,能够解决当前的NER框架的实体识别结果的字符顺序错误的问题。本说明书实施例所述的实体抽取模型的训练装置、实体抽取方法及装置同样具有上述有益效果。
-
公开(公告)号:CN114880489B
公开(公告)日:2024-08-06
申请号:CN202210582554.1
申请日:2022-05-26
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 祝慧佳
IPC: G06F16/36 , G06F40/289 , G06F40/30
Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:获取待识别的目标对象;若所述目标对象中包含与第一暗语匹配的词语,则从预先构建的语料库包含的语料中,获取与所述目标对象对应的目标语料,所述预先构建的语料库包括第一语料,所述第一语料为基于第二暗语和目标风险语料构建的风险语料,所述目标风险语料包含与所述第二暗语具有预设关联关系的风险词语;基于所述目标对象和所述目标语料的相似度,以及所述目标语料的风险标签,确定所述目标对象是否为存在风险。
-
公开(公告)号:CN118366165A
公开(公告)日:2024-07-19
申请号:CN202410526783.0
申请日:2024-04-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V30/146 , G06V30/19 , G06V30/18
Abstract: 本说明书实施例公开了一种文档信息抽取模型的训练方法,该方法在通用文档信息抽取模型的基础上,在每一层编码器的输入向量中,以及在最后一层编码器的输出向量中,增加了原始文本位置信息残差链接,使得模型对于文本原始位置的记忆更加强,从而提升抽取结果的准确度。本说明书实施例所述的文档信息抽取模型的训练装置、文档信息抽取方法及装置同样具有上述有益效果。
-
公开(公告)号:CN117711403A
公开(公告)日:2024-03-15
申请号:CN202311743634.1
申请日:2023-12-18
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种文本纠错模型训练方法、装置、存储介质及电子设备。将预先采集的语音样本输入到语音识别模型,得到所述语音识别模型输出的转译文本,判断所述转译文本中是否包含预先确定的易错词汇,若包含,则确定所述转译文本中包含的易错词汇对应的扩展词汇,根据所述扩展词汇,对所述转译文本进行扩展,得到增强样本,将所述增强样本作为样本,所述转译文本作为标注,对文本纠错模型进行训练。通过这种方法,能快速构造出了大量的增强样本,并确定所述增强样本对应的标注,对所述文本纠错模型进行训练,提升所述文本纠错模型的纠错性能。
-
公开(公告)号:CN117591622A
公开(公告)日:2024-02-23
申请号:CN202311561050.2
申请日:2023-11-21
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书公开了一种模型训练和业务执行方法、装置、存储介质及设备。该模型训练方法包括:获取目标业务领域下的业务数据,作为第一样本数据,以及获取目标业务领域下的各实体类型对应的第一实体描述信息;将第一样本数据以及第一实体描述信息输入目标阅读理解模型,根据第一实体描述信息确定第一样本数据中包含的各实体,并将确定出的各实体作为第一样本数据对应的伪标签;将第一样本数据输入待训练的实体抽取模型,确定第一样本数据中包含的各实体,作为第一样本数据对应的预测实体;以最小化第一样本数据对应的预测实体与伪标签之间的偏差为优化目标,对实体抽取模型进行训练,得到目标实体抽取模型。
-
-
-
-
-
-
-
-
-