答案评价模型训练方法、评价方法、装置、设备及介质

    公开(公告)号:CN118278543A

    公开(公告)日:2024-07-02

    申请号:CN202410465501.0

    申请日:2024-04-17

    Inventor: 陈政宗 万峻辰

    Abstract: 本公开实施例提供一种答案评价模型训练方法、答案评价方法、装置、设备、介质及程序产品。该方法包括:获取包括训练样本的训练数据集;训练样本包括:问题文本、答案文本、正误标签和样本评分;将训练数据集输入待训练评价模型中,得到对应的模型评分;根据模型评分、样本评分和正误标签,分别生成评分损失函数和正误损失函数;根据损失函数对待训练评价模型进行训练,得到答案评价模型。该模型训练方法,通过在训练数据集中引入符合人类偏好的样本评分,并从正误损失和评分损失两方面损失函数对模型进行训练。所训练得到的答案评价模型不仅可以对问题答案的正误进行判断,更可以从人类偏好的视角对答案所提供的解题步骤的完善性进行评价。

    思维链数据的生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117933391A

    公开(公告)日:2024-04-26

    申请号:CN202410009679.4

    申请日:2024-01-02

    Abstract: 本公开关于一种思维链数据的生成方法、装置、电子设备及存储介质,该方法包括:从每个类别的种子数据集合中抽取等量的种子数据,组成目标数据集合,种子数据包括问题和与问题对应的思维链推理过程;针对目标数据集合中的每个所述类别,根据类别中的种子数据,通过大语言模型生成类别的新数据,新数据包括新问题和与新问题对应的思维链推理过程;将新数据放入所述目标数据集合,并根据所述目标数据集合迭代进行新数据的生成,直至所述目标数据集合的数据量达到目标数据量。本公开可以生成高质量的思维链数据,便于对大模型进行推理任务的训练,而且生成的思维链数据不需要进行数据清洗,可以提高思维链数据的生成效率,降低思维链数据的生成成本。

    一种对象特征确定方法、装置、电子设备及存储介质

    公开(公告)号:CN119202372A

    公开(公告)日:2024-12-27

    申请号:CN202411110975.X

    申请日:2024-08-13

    Abstract: 本公开关于一种对象特征确定方法、装置、电子设备及存储介质,该方法将样本推荐对象的对象描述信息输入至大语言模型,通过大语言模型基于第一预设思维链提示文本进行目标交互行为的转化分析得到转化理由,该第一预设思维链提示文本用于提示针对样本推荐对象产生目标交互行为的推理过程,转化理由包括该推理过程中的至少一个维度的推理结果,进而基于该转化理由对样本推荐对象进行特征表示得到其第一对象特征,并基于样本交互对象的样本推荐对象序列中各样本推荐对象的第一对象特征确定该样本交互对象的第二对象特征。本公开提高了面向具体预估任务的对象表征的准确性并缩短了耗时,提高了面向具体预估任务的推荐概率预估模型的训练效率和准确性。

    问答模型的训练方法、装置、电子设备、存储介质及产品

    公开(公告)号:CN118153659A

    公开(公告)日:2024-06-07

    申请号:CN202410278912.9

    申请日:2024-03-12

    Abstract: 本公开实施例提供一种问答模型的训练方法、装置、电子设备、存储介质及产品,涉及机器学习技术领域。该方法包括:获取第一问答模型和第一奖励模型,第一奖励模型是根据训练样本训练得到的;基于第一奖励模型对第一问答模型进行当前一轮的强化学习训练获得第二问答模型;根据第二问答模型所生成的答案更新训练样本;根据更新后的训练样本迭代训练第一奖励模型和第二问答模型,直至训练得到的问答模型所生成的答案的奖励值大于预设奖励值时停止训练,获得目标问答模型。该方法通过强化学习训练过程得到的问答模型所生成的答案更新训练样本,利用更新后的训练样本训练奖励模型,丰富了奖励模型的训练数据,增加奖励模型对强化学习过程的指导能力。

    问题的推理方法、装置、电子设备及存储介质

    公开(公告)号:CN117764177A

    公开(公告)日:2024-03-26

    申请号:CN202410009528.9

    申请日:2024-01-02

    Abstract: 本公开涉及一种问题的推理方法、装置、电子设备及存储介质,属于自然语言处理技术领域。该方法包括:根据初始问题构造出多个扩展问题,扩展问题与初始问题的问题表述方式不同,问题条件和问题答案相同;针对初始问题以及构造出的多个扩展问题,分别生成每个问题对应的推理路径,以得到多条推理路径;根据路径筛选任务需求确定路径筛选提示信息,并将路径筛选提示信息、初始问题以及多条推理路径进行拼接,得到初始问题对应的路径筛选输入数据;将路径筛选输入数据输入大语言模型中,根据大语言模型输出的推理路径筛选结果,从多条推理路径中确定出目标推理路径。本公开可以在提升大语言模型的推理能力的同时,降低推理过程造成的计算开销。

    大语言模型训练方法、回复文本获取方法、装置及设备

    公开(公告)号:CN118278457A

    公开(公告)日:2024-07-02

    申请号:CN202410383102.X

    申请日:2024-03-29

    Abstract: 本公开提供了一种大语言模型训练方法、回复文本获取方法、装置及设备,属于计算机技术领域。方法包括:获取样本文本、样本文本的样本回复文本对及样本回复文本对中每个样本回复文本的匹配度;对于每个样本回复文本,将样本文本及样本回复文本输入待训练的大语言模型进行编码和解码,得到样本回复文本的概率;确定第一数值及第二数值;基于第一数值及第二数值,对待训练的大语言模型进行训练。在本公开实施例中,在训练大语言模型的过程中考虑不同样本回复文本的质量差异的影响,保证大语言模型能够基于输入文本生成高质量的回复文本,进而提升了大语言模型的准确性。

    监督微调模型的训练方法、装置、电子设备、存储介质及程序产品

    公开(公告)号:CN118520087A

    公开(公告)日:2024-08-20

    申请号:CN202410663583.X

    申请日:2024-05-27

    Abstract: 本公开关于一种监督微调模型的训练方法、装置、电子设备、存储介质及程序产品,该方法包括:将每个查询样本输入经过初始监督微调模型调整过的大语言模型,得到每个查询样本的多个候选回复以及候选回复的回复概率;获取每个候选回复的用户偏好程度;将每个查询样本的多个候选回复中回复概率最高的候选回复,确定为目标回复,确定正样本,并确定负样本;根据每个查询样本的多个候选回复各自的回复概率和用户偏好程度,确定排序损失函数值;根据各个目标回复与各个回复样本,确定对比损失函数值;根据排序损失函数值和对比损失函数值,对初始监督微调模型进行训练,得到训练好的监督微调模型。本公开中监督微调模型的训练简单、所需的模型参数较少。

    回复信息生成方法、装置、电子设备及存储介质

    公开(公告)号:CN118132696A

    公开(公告)日:2024-06-04

    申请号:CN202410015802.3

    申请日:2024-01-03

    Abstract: 本公开提供了一种回复信息生成方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:获取对话信息;获取上一轮次的n个字符序列;将对话信息及每个字符序列输入大语言模型,得到当前轮次的多个备选字符序列及备选字符序列的概率;将对话信息及每个备选字符序列输入奖励模型,得到每个备选字符序列的奖励值;基于当前轮次的多个备选字符序列的概率及奖励值,筛选出当前轮次的n个字符序列;在当前获取到第m轮次的n个字符序列的情况下,在第m轮次的n个字符序列均包含停止字符,或者,m达到轮次阈值的情况下,将第m轮次的n个字符序列中概率最大或准确度最大的字符序列,确定为对话信息的回复信息。本公开保证回复信息的准确性。

    文本生成方法、装置、电子设备及存储介质

    公开(公告)号:CN118036719A

    公开(公告)日:2024-05-14

    申请号:CN202410171673.7

    申请日:2024-02-06

    Abstract: 本公开关于一种文本生成方法、装置、电子设备及存储介质,所述方法包括:从多条原始解码路径中确定出多条候选解码路径;基于所述任一候选解码路径与所述其他候选解码路径之间的路径关联度,以及所述任一候选解码路径的路径概率进行数据融合,得到所述任一候选解码路径对应的路径分数;基于所述多条候选解码路径各自对应的路径分数,从所述多条候选解码路径中确定出目标解码路径;基于所述目标解码路径确定文本解码路径;基于所述文本解码路径中的多个预测文本单元生成目标文本。本公开能够提高文本生成的准确性。

    在线任务处理模型训练、任务处理方法及装置

    公开(公告)号:CN115756821A

    公开(公告)日:2023-03-07

    申请号:CN202211266332.5

    申请日:2022-10-17

    Inventor: 万峻辰 张振

    Abstract: 本公开关于一种在线任务处理模型训练、任务处理方法及装置,该在线任务处理模型训练方法包括:获取第一样本对象的实时操作序列和目标图结构,目标图结构为基于第一样本对象的历史交互记录构建的图结构;历史交互记录为第一样本对象,在目标图结构的上一次更新之前,对预设多媒体资源执行的预设交互操作产生的交互记录;基于目标图结构和实时操作序列,对在线任务处理模型中的任务处理子模型和在线任务处理模型中的图表征子模型进行并行训练,得到目标在线任务处理模型。利用本公开实施例提升模型训练效率和模型处理效果,且在线任务处理模型训练过程中无需进行特征落表,有效减少存储空间消耗,大大提升系统性能。

Patent Agency Ranking