一种模型训练的方法、实体识别的方法、装置及电子设备

    公开(公告)号:CN117951527A

    公开(公告)日:2024-04-30

    申请号:CN202410194929.6

    申请日:2024-02-21

    Abstract: 本说明书公开了一种模型训练的方法、实体识别的方法、装置及电子设备,具体包括:通过将第一文本数据输入到原始实体识别模型中,得到第一识别结果,根据第一识别结果与第一标注数据进行训练时各模型参数的变化幅度,确定各模型参数的重要程度值,根据各重要程度值对模型参数的学习率进行调整。将第二文本数据输入到原始实体识别模型中得到第二识别结果,以最小化第二识别结果与第二标注数据的偏差为优化目标,按照调整后的学习率进行训练。将训练后的实体识别模型用于对文本数据进行实体识别,根据识别结果执行目标任务。通过本说明书中的方法可有效提高针对实体识别模型的训练效率,使得后续根据识别结果执行目标任务的执行效率也获得了提升。

    一种关键句提取模型的训练方法、装置及存储介质

    公开(公告)号:CN118194949A

    公开(公告)日:2024-06-14

    申请号:CN202410384081.3

    申请日:2024-03-29

    Abstract: 本说明书公开了一种关键句提取模型的训练方法、装置及存储介质,待训练的提取模型包含编码层、池化层和分类层,获取目标文本,确定组成目标文本的各子句,针对每个子句,将该子句输入编码层,得到由该子句包含的各分词对应的词向量确定的词特征,将词特征输入池化层,得到句特征,将各子句的句特征输入分类层,确定该目标文本的关键句中的首句和尾句,将首句与尾句之间的各子句,作为预测关键句,根据目标文本的标注关键句与预测关键句的差异,训练提取模型。通过池化层将词语级别的词特征转化为句子级别的句特征,并通过句子级别的标注关键句对提取模型进行训练,可以得到连续的子句组成的各预测关键句,从而提取到更加准确的关键句。

    数据处理方法、装置及设备
    3.
    发明公开

    公开(公告)号:CN116757208A

    公开(公告)日:2023-09-15

    申请号:CN202310466681.X

    申请日:2023-04-26

    Abstract: 本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:获取用于训练第一模型的文本数据样本及文本数据样本包含的词对应的实体类型标签,基于第一损失函数、文本数据样本及文本数据样本包含的词对应的实体类型标签,对第一模型进行迭代训练,并在第一模型满足预设收敛条件的情况下,基于由初步训练的第一模型对文本数据样本进行实体识别处理得到的文本数据样本包含的词对应不同的预测实体类型的概率分布,确定的初步训练的第一模型对应的预测熵,对第一损失函数中的参数进行更新处理,并基于更新后的第一损失函数对初步训练的第一模型进行迭代训练,直到第一模型收敛,得到训练后的第一模型。

    数据处理方法、装置及设备
    4.
    发明公开

    公开(公告)号:CN116522939A

    公开(公告)日:2023-08-01

    申请号:CN202310466522.X

    申请日:2023-04-26

    Abstract: 本说明书实施例提供了多种数据处理方法、装置及设备,其中一种方法包括:通过目标模型对文本数据样本进行实体识别处理,得到文本数据样本包含的词对应的预测实体类型,基于词对应的预测实体类型和实体类型标签,将文本数据样本包含的词划分为第一样本和包含噪声的第二样本,并基于第一样本对应的预测实体类型和实体类型标签,确定第一损失值,对增强处理得到的第二样本进行语义提取处理,得到第二样本对应的语义向量,基于由第二样本对应的语义向量构建的正样本对和负样本对,确定第二损失值,基于第一损失值和第二损失值,确定目标模型对应的目标损失值,并基于目标损失值对目标模型进行迭代训练,直至目标模型收敛,得到训练后的目标模型。

    多任务大语言模型训练方法及装置

    公开(公告)号:CN118261225A

    公开(公告)日:2024-06-28

    申请号:CN202410473352.2

    申请日:2024-04-18

    Abstract: 本说明书实施例涉及多任务大语言模型训练方法及装置,大语言模型包括已训练好的目标网络层,和用于对目标网络层进行旁路训练的适配器,方法包括:首先,获取针对若干任务类型对适配器进行训练得到的第一适配器;然后,获取多条归属于目标任务类型的文本训练数据;目标任务类型不同于若干任务类型中的任一任务类型;接下来,将待训练的掩码矩阵作用于第一适配器,然后与待训练的第二适配器组合,得到组合适配器;然后,将多条文本训练数据输入到包含组合适配器的大语言模型中,根据大语言模型的输出,调整第二适配器与掩码矩阵中的参数;最后,将训练完成的掩码矩阵作用于第一适配器,然后与训练完成的第二适配器相加,作为新的第一适配器。

Patent Agency Ranking