-
公开(公告)号:CN114638217A
公开(公告)日:2022-06-17
申请号:CN202210246775.1
申请日:2022-03-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F40/279 , G06F16/33 , G06N5/02
Abstract: 本说明书实施例提供了地址文本处理方法及装置,其中,一种地址文本处理方法包括:获取对语音数据进行识别获得的地址文本,对所述地址文本进行切分处理获得地址关键词;对所述地址关键词进行层级标注,并基于层级标注结果搜索与所述地址关键词匹配的标准地址关键词;根据所述地址文本、所述地址关键词以及所述标准地址关键词,构建地址层级关系图;利用所述地址层级关系图计算所述地址关键词以及处于各候选地址链路的所述标准地址关键词的权重,并根据所述权重计算所述各候选地址链路的链路权重;根据所述各候选地址链路的链路权重确定所述地址文本对应的目标地址链路。
-
公开(公告)号:CN112364146A
公开(公告)日:2021-02-12
申请号:CN202011365079.X
申请日:2020-11-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/194 , G06F40/279 , G06F40/30 , G06N20/00
Abstract: 本说明书一个或多个实施例提供一种查询文档排序方法、装置及电子设备,包括:基于用户输入的查询问句和与所述查询问句对应的多个查询文档,构建输入向量;其中,所述输入向量中与各个查询文档对应的位置上被分别添加了代表所述查询文档的语义的预设标识;将所述输入向量输入至BERT模型进行语义表示计算,并获取所述BERT模型输出的与各个预设标识对应的语义向量;将与各个预设标识对应的语义向量输入至训练完成的排序学习模型,计算与各个语义向量对应的匹配度评分,并输出按照所述匹配度评分进行排序的排序结果。
-
公开(公告)号:CN110909145A
公开(公告)日:2020-03-24
申请号:CN201911203428.5
申请日:2019-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/35 , G06F16/33
Abstract: 本说明书实施例提供一种针对多任务模型的训练方法,其中多任务模型包括语义编码层,针对搜索交互场景的搜索输出层以及针对问答交互场景的问答输出层,其中训练方法包括:首先,获取搜索交互场景和问答交互场景下采集的多个训练样本;然后,对于其中任意的第一样本,至少将其中的用户输入文本输入语义编码层,得到语义向量,并且,将语义向量分别输入搜索输出层和问答输出层;进一步地,根据第一样本所对应的采集场景,从对应场景的输出层获取预测结果,并结合第一样本中的样本标签,确定所述第一样本对应的预测损失;最后,基于多个训练样本各自对应的预测损失之和,调整所述多任务模型的参数。
-
公开(公告)号:CN110705717A
公开(公告)日:2020-01-17
申请号:CN201910942795.0
申请日:2019-09-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本说明书实施例提供一种计算机执行的机器学习模型的训练方法、装置及设备,在训练方法中,获取在当前时间段内的增量数据,作为训练样本集。基于训练样本集,对在上一时间段训练后的机器学习模型进行增量训练,得到初始机器学习模型。将测试样本集中的各测试样本输入初始机器学习模型,以得到测试结果。基于测试结果,确定初始机器学习模型的准确率。若准确率大于第一阈值,则将初始机器学习模型作为在当前时间段训练后的机器学习模型。若准确率不大于第一阈值,则将测试样本集中测试结果错误的测试样本加入训练样本集,得到更新后的训练样本集,并基于更新后的训练样本集,对初始机器学习模型进行训练,以得到在当前时间段训练后的机器学习模型。
-
公开(公告)号:CN118114743B
公开(公告)日:2024-09-13
申请号:CN202410536960.3
申请日:2024-04-29
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本申请涉及人工智能技术领域,具体提供了一种医疗模型预训练的方法、装置、电子设备及存储介质。一种医疗模型预训练的方法,包括针对各预训练文本的医疗实体信息,对各预训练文本分别进行采样,获得各预训练文本分别对应的采样片段集合;采样片段集合中采样片段中至少包含医疗实体信息;对各预训练文本中的采样片段分别进行掩码处理,获得相应的损坏文本;通过文本预测通用模型,根据各损坏文本及其分别对应的采样片段集合进行文本预测,获得相应的文本预测结果;根据各预训练文本及文本预测结果,进行参数调整,直至获得训练好的医疗预训练模型。这样,提高了医疗预训练模型在医疗领域中的语义理解能力以及逻辑处理能力。
-
公开(公告)号:CN117453868A
公开(公告)日:2024-01-26
申请号:CN202311267005.6
申请日:2023-09-27
Applicant: 支付宝(杭州)信息技术有限公司 , 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/194 , G06N5/022
Abstract: 本说明书实施例提供一种多轮问答数据生成方法、装置、设备与存储介质,该方法包括:通过获取给定的上下文数据对应的第一三元组数据,基于第一三元组数据生成上下文数据的知识图谱,基于上下文数据生成单轮问答数据,确认单轮问答数据对应的第二三元组数据,将第二三元组数据与知识图谱进行匹配处理,得到序列化问答数据,在多轮对话场景下获取序列化问答数据中的待改写问题,基于序列化问答数据中待改写问题对应的历史对话数据对待改写问题进行改写,以得到目标问题,采用目标问题替换待改写问题,以得到序列化问答数据对应的多轮问答数据。
-
公开(公告)号:CN111008263B
公开(公告)日:2023-06-09
申请号:CN201911203440.6
申请日:2019-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/33 , G06F16/332
Abstract: 本说明书实施例提供一种问答匹配模型的更新方法和装置,方法包括:获取第一训练样本,包括第一候选知识点、第一样本问句及对应的第一匹配标签;利用第一训练样本,离线训练目标评分引擎,用已训练的线下版本更新对应的线下测试版本;当得到多个评分引擎分别对应的线下测试版本时,获取第二训练样本,包括第二样本问句、第一候选知识点集合,及对应的第一排序标签;利用第二训练样本,基于多个评分引擎的线下测试版本,离线训练决策引擎,以得到已训练的线下版本的决策引擎;将线上版本的各评分引擎更新为对应的线下测试版本,并将线上版本的决策引擎更新为已训练的线下版本的决策引擎。更新效率高。
-
公开(公告)号:CN115878767A
公开(公告)日:2023-03-31
申请号:CN202211405451.4
申请日:2022-11-10
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06N3/04 , G06N3/084
Abstract: 本说明书实施例提供问答模型训练方法及装置,其中,所述方法通过确定第一训练语料、以及至少一个第一用户对应的第二训练语料;根据所述第一训练语料训练获得初始问答模型;根据所述至少一个第一用户对应的第二训练语料,训练获得针对所述至少一个第一用户的问答适配模块;根据所述初始问答模型以及所述至少一个第一用户的问答适配模块,获得所述至少一个第一用户对应的目标问答模型。所述方法中每个用户仅需要通过各自匹配的语料训练对应的问答适配模块,通过将其对应的问答适配模块添加至统一的初始问答模型中,即可快速获得每个用户对应的目标问答模型,极大的节约了线上资源的消耗和日常维护的成本。
-
公开(公告)号:CN111159558A
公开(公告)日:2020-05-15
申请号:CN201911409205.4
申请日:2019-12-31
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9535 , G06F16/958 , G06F16/635 , G06F16/638
Abstract: 本说明书一个或多个实施例提供一种推荐列表的生成方法、装置和电子设备;所述方法包括:获取用户的用户特征;根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击结果;根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数;确定基准奖励分数;根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,优化后的所述强化学习模型用于生成对应于所述用户的推荐列表。
-
公开(公告)号:CN110704599A
公开(公告)日:2020-01-17
申请号:CN201910942807.X
申请日:2019-09-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/332 , G06F16/33
Abstract: 本说明书实施例提供一种为预测模型生成样本可以使用大量选择数据为预测模型生成训练样本,并且在样本生成过程中,通过使用标准样本训练的初始预测模型作为指引,减少选择数据中的噪声干扰,提高生成的训练样本的有效性。本说明书实施例还提供一种训练预测模型的方法和装置,将以上训练样本用于训练预测模型,大大扩充了样本数量,可以减少人工打标的工作量,还可以增强预测模型的抗噪能力,大大提高预测模型的准确度。
-
-
-
-
-
-
-
-
-