一种模型训练方法、设备及介质
    2.
    发明公开

    公开(公告)号:CN118797464A

    公开(公告)日:2024-10-18

    申请号:CN202310994307.7

    申请日:2023-08-08

    Abstract: 本发明提供一种模型训练方法、设备以及介质,涉及人工智能领域,其中,所述模型训练方法包括:利用第一训练数据集,对初始模型进行训练,得到第一模型;在需要利用第二数据集对所述第一模型进行更新的情况下,利用所述第一模型对所述第二数据集进行筛选,得到目标数据集,所述目标数据集包括所述第二数据集中的部分第二数据;获取所述目标数据集中每个目标数据的数据标签,得到所述目标数据集对应的目标训练数据集;利用所述目标训练数据集,对所述第一模型进行训练,得到第二模型。本发明实施例,利用机器模型实现数据筛选,基于机器模型的筛选结果进行数据标记,能够减少监督学习过程中的数据标记需求,提高模型训练效率。

    一种图谱问答方法、装置、系统及介质

    公开(公告)号:CN116910189A

    公开(公告)日:2023-10-20

    申请号:CN202310217398.3

    申请日:2023-03-08

    Inventor: 杨帆 刘睿 孟繁宇

    Abstract: 本发明提供一种图谱问答方法、装置、系统及介质,所述方法包括:计算问题向量与候选向量之间的相似度,以在所述候选向量中确定目标向量,其中,所述问题向量为基于用户问题进行向量转换得到的向量,所述候选向量为基于切割后的三元组集合进行向量转换得到的向量集合,所述目标向量与所述问题向量的相似度大于所述候选向量中其他候选向量与所述问题向量的相似度;根据所述目标向量对应的三元组回答所述用户问题。这样,在计算相似度时减少了三元组中答案部分对问答的干扰,提升了图谱问答系统问答用户问题的准确率。

    文本问答数据对的标注方法、装置、设备及存储介质

    公开(公告)号:CN118797055A

    公开(公告)日:2024-10-18

    申请号:CN202410018719.1

    申请日:2024-01-04

    Abstract: 本申请公开了一种文本问答数据对的标注方法、装置、设备及存储介质。该方法包括:获取待标注的文本问答数据对,文本问答数据对包括:表征原始问题的第一文本数据和表征原始答案的第二文本数据;基于预训练的文本生成模型对第二文本数据进行处理,得到多个第三文本数据,各第三文本数据用于表征与原始问题对应的伪问题;基于预训练的第一句向量模型,将多个第三文本数据转换为第一向量,并将第一文本数据转换为第二向量;基于第一向量与第二向量之间的相似度,生成文本问答数据对的第一标注数据。可以减少长文本的回答数据受限于第一句向量模型的处理长度导致的匹配性能受损的缺陷,利于满足长文本的问答数据对的自动标注需求。

    图谱问答方法及装置、设备、存储介质

    公开(公告)号:CN116521829A

    公开(公告)日:2023-08-01

    申请号:CN202210080421.4

    申请日:2022-01-24

    Abstract: 本申请提供了图谱问答方法及装置、设备、存储介质;所述方法包括:通过已训练的K元匹配模型,将第一查询问题作为整体进行向量化处理,得到第一向量;其中,K大于0;通过所述K元匹配模型,确定所述第一向量分别与各个候选K元组的第二向量之间的第一相似度;其中,所述第二向量通过所述K元匹配模型预先将所述候选K元组作为整体进行向量化处理得到;以及从各个所述候选K元组中选出所述第一相似度满足条件的候选K元组作为目标K元组;将所述目标K元组中的实体作为答案输出。如此,能够快速确定出问题答案,效率更高。

    一种基于均衡求解的大模型对齐方法

    公开(公告)号:CN119539058A

    公开(公告)日:2025-02-28

    申请号:CN202411689955.2

    申请日:2024-11-25

    Abstract: 本发明提供一种基于均衡求解的大模型对齐方法,涉及数据处理技术领域,该方法包括:获取问题数据集和预测模型,所述问题数据集包括多个问题,所述预测模型用于在不同场景下判断回应的回应效果;基于预设语言模型对所述多个问题中每个问题进行回应,得到所述每个问题对应的两个回应文本;基于所述预测模型将所述每个问题对应的两个回应文本划分为第一文本和第二文本,所述第一文本的回应效果好于所述第二文本的回应效果;基于所述每个问题对应的第一文本和第二文本构建训练数据集;基于所述训练数据集对所述预设语言模型进行训练,得到目标模型,所述目标模型用于对问题进行回应。本发明能提高语言模型输出的回应效果。

Patent Agency Ranking