强化学习模型的更新方法和装置

    公开(公告)号:CN110990548B

    公开(公告)日:2023-04-25

    申请号:CN201911206271.1

    申请日:2019-11-29

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种强化学习模型的更新方法和装置。强化学习模型包括第一动作价值网络和第二动作价值网络,分别承担第一比例和第二比例的线上流量,第一比例大于第二比例,方法包括:接收线上的当前问句;以当前问句作为当前状态,利用第一动作价值网络或利用第二动作价值网络得到当前状态对应的动作,以及相应的得到当前状态、动作、奖励和更新状态作为一条记录,将该条记录以一定概率存储;抽取记录,根据该记录对第二动作价值网络进行训练;当确定训练后的第二动作价值网络的效果优于第一动作价值网络时,将第一动作价值网络更新为训练后的第二动作价值网络。能够保证强化学习模型更新后的稳定性和质量。

    训练样本获取方法、装置及设备

    公开(公告)号:CN110688471B

    公开(公告)日:2022-09-09

    申请号:CN201910942797.X

    申请日:2019-09-30

    Abstract: 本说明书实施例提供一种训练样本获取方法、装置及设备,在获取方法中,收集两批已标注样本,包括第一批样本和第二批样本。第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注。基于第一批样本,训练样本分类模型。对于第二批样本,将第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率。基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。当差异度大于第一阈值时,对第一样本进行编辑。基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。

    计算机执行的机器学习模型的训练方法、装置及设备

    公开(公告)号:CN110705717B

    公开(公告)日:2022-05-17

    申请号:CN201910942795.0

    申请日:2019-09-30

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种计算机执行的机器学习模型的训练方法、装置及设备,在训练方法中,获取在当前时间段内的增量数据,作为训练样本集。基于训练样本集,对在上一时间段训练后的机器学习模型进行增量训练,得到初始机器学习模型。将测试样本集中的各测试样本输入初始机器学习模型,以得到测试结果。基于测试结果,确定初始机器学习模型的准确率。若准确率大于第一阈值,则将初始机器学习模型作为在当前时间段训练后的机器学习模型。若准确率不大于第一阈值,则将测试样本集中测试结果错误的测试样本加入训练样本集,得到更新后的训练样本集,并基于更新后的训练样本集,对初始机器学习模型进行训练,以得到在当前时间段训练后的机器学习模型。

    查询文档排序方法、装置及电子设备

    公开(公告)号:CN112395405B

    公开(公告)日:2021-04-27

    申请号:CN202011602065.5

    申请日:2020-12-30

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书一个或多个实施例提供一种查询文档排序方法、装置及电子设备,包括:基于训练样本集对作为老师模型的第一排序模型进行有监督的训练;其中,训练样本包括查询问句和与查询问句对应的查询文档,并被标注了指示查询文档与查询问句是否匹配的标签;第一排序模型包括对至少一个评分子模型进行模型融合得到的排序模型;评分子模型用于输出查询文档对应于查询问句的匹配度评分;基于第一排序模型输出的与训练样本集对应的排序结果对作为学生模型的第二排序模型进行预训练,并基于训练样本集对预训练后的第二排序模型进行模型微调;其中,第一排序模型和第二排序模型用于按照匹配度评分对与同一查询问句对应的多个查询文档进行排序。

    机器学习模型的训练方法及装置、样本处理方法及装置

    公开(公告)号:CN111340233A

    公开(公告)日:2020-06-26

    申请号:CN202010104680.7

    申请日:2020-02-20

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种机器学习模型的训练方法,该方法包括:基于获取的原始样本集,对执行相同任务的多个预测模型进行多轮训练,得到多个训练后模型。其中任一轮训练具体包括:先对原始样本集进行采样,得到若干原始样本,其中包括任意的第一原始样本,此样本中包括第一样本特征和第一样本标签;接着将第一样本特征分别输入多个预测模型中,得到多个第一预测结果;然后至少基于多个第一预测结果和第一样本标签,确定出现频次最高的第一最高频结果;进一步地,在第一最高频结果唯一的情况下,利用该结果对所述第一样本标签进行修正,得到第一修正样本;再接着利用根据所述若干原始样本得到的若干修正样本,分别训练所述多个预测模型。

    问答匹配模型的更新方法和装置
    26.
    发明公开

    公开(公告)号:CN111008263A

    公开(公告)日:2020-04-14

    申请号:CN201911203440.6

    申请日:2019-11-29

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种问答匹配模型的更新方法和装置,方法包括:获取第一训练样本,包括第一候选知识点、第一样本问句及对应的第一匹配标签;利用第一训练样本,离线训练目标评分引擎,用已训练的线下版本更新对应的线下测试版本;当得到多个评分引擎分别对应的线下测试版本时,获取第二训练样本,包括第二样本问句、第一候选知识点集合,及对应的第一排序标签;利用第二训练样本,基于多个评分引擎的线下测试版本,离线训练决策引擎,以得到已训练的线下版本的决策引擎;将线上版本的各评分引擎更新为对应的线下测试版本,并将线上版本的决策引擎更新为已训练的线下版本的决策引擎。更新效率高。

    强化学习模型的更新方法和装置

    公开(公告)号:CN110990548A

    公开(公告)日:2020-04-10

    申请号:CN201911206271.1

    申请日:2019-11-29

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供一种强化学习模型的更新方法和装置。强化学习模型包括第一动作价值网络和第二动作价值网络,分别承担第一比例和第二比例的线上流量,第一比例大于第二比例,方法包括:接收线上的当前问句;以当前问句作为当前状态,利用第一动作价值网络或利用第二动作价值网络得到当前状态对应的动作,以及相应的得到当前状态、动作、奖励和更新状态作为一条记录,将该条记录以一定概率存储;抽取记录,根据该记录对第二动作价值网络进行训练;当确定训练后的第二动作价值网络的效果优于第一动作价值网络时,将第一动作价值网络更新为训练后的第二动作价值网络。能够保证强化学习模型更新后的稳定性和质量。

    用于确定问题答案的方法及问答装置

    公开(公告)号:CN110516060B

    公开(公告)日:2020-02-21

    申请号:CN201911018680.9

    申请日:2019-10-24

    Inventor: 张望舒 温祖杰

    Abstract: 本说明书实施例提供用于确定问题答案的方法及装置。该方法由问答装置执行,该问答装置具备利用多个问答引擎进行问题答案确定的能力,多个问答引擎中的召回模型和第一评价模型分别组成召回模型层和评价模型层。在该方法中,使用召回模型层中的各个召回模型来分别获取问题的答案;将经由各个召回模型得到的答案提供给各个第一评价模型来分别进行评价,以得到各个答案的第一评价结果集,第一评价结果集包括基于各个第一评价模型得到的第一评价结果;针对各个答案,对所得到的第一评价结果集中的各个第一评价结果进行聚合处理,以得到该答案的第二评价结果;以及根据各个答案的第二评价结果进行答案评估,以确定问题的至少一个目标答案。

    问答数据生成方法、装置、设备与存储介质

    公开(公告)号:CN117573816A

    公开(公告)日:2024-02-20

    申请号:CN202310835504.4

    申请日:2023-07-07

    Abstract: 本说明书实施例提供一种问答数据生成方法、装置、设备与存储介质,该方法包括:通过获取服务对话数据中的无答案问题数据和目标回答数据,从服务对话数据中确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据,基于第一对话数据和无答案问题数据,确认与无答案问题数据匹配的答案数据,基于第二对话数据和目标回答数据,确认与目标回答数据匹配的目标问题数据,基于无答案问题数据、答案数据、目标回答数据和目标问题数据生成问答数据。

    一种推荐列表的生成方法、装置和电子设备

    公开(公告)号:CN111159558B

    公开(公告)日:2023-07-18

    申请号:CN201911409205.4

    申请日:2019-12-31

    Abstract: 本说明书一个或多个实施例提供一种推荐列表的生成方法、装置和电子设备;所述方法包括:获取用户的用户特征;根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击结果;根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数;确定基准奖励分数;根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,优化后的所述强化学习模型用于生成对应于所述用户的推荐列表。

Patent Agency Ranking