文本分类模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN114691860A

    公开(公告)日:2022-07-01

    申请号:CN202011560064.9

    申请日:2020-12-25

    Abstract: 本公开提供了一种文本分类模型的训练方法、装置、电子设备及存储介质,属于机器学习技术领域。方法包括:基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到样本标题文本的概率向量;确定第一类别标签的目标标签权重,第一类别标签为样本标题文本所属的类别标签,目标标签权重的大小与属于第一类别标签的样本标题文本的数量成反比;根据概率向量和目标标签权重,确定本次迭代过程的第一损失值;响应于第一损失值符合目标条件,将文本分类模型作为训练完毕的文本分类模型。上述方法,使训练得到的文本分类模型能够对数据量较少的类别标签的特征进行有效的学习,从而提高文本分类模型的准确率。

    关键词识别模型的训练、提取方法、装置、设备及介质

    公开(公告)号:CN113468322A

    公开(公告)日:2021-10-01

    申请号:CN202110601525.0

    申请日:2021-05-31

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种关键词识别模型的训练、提取方法、装置、设备及介质,涉及自然语言处理领域,训练方法包括:获取文本样本集;将所述文本样本集中的各文本样本输入预训练后的语言模型进行单个字符类别预测,得到各所述文本样本对应的类别预测结果;确定各所述文本样本中每个字符的参考类别,得到各所述文本样本对应的类别标签结果;所述参考类别指示相应字符是否为多字关键词的边界字符;根据各所述文本样本的对应的类别预测结果和类别标签结果,计算得到损失数据;基于所述损失数据训练所述语言模型,得到文本关键词识别模型。利用本公开实施例提供的技术方案可以提升模型识别多字关键词的效率,以及提高从文本中提取关键词的效率。

    语句分类模型训练方法、语句处理方法及设备

    公开(公告)号:CN113032560B

    公开(公告)日:2023-10-27

    申请号:CN202110279651.9

    申请日:2021-03-16

    Abstract: 本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。

    一种语料处理模型的更新方法、类目确定方法及装置

    公开(公告)号:CN114564557A

    公开(公告)日:2022-05-31

    申请号:CN202011363647.2

    申请日:2020-11-27

    Inventor: 尚航 杨森

    Abstract: 本公开关于一种语料处理模型的更新方法、类目确定方法及装置。该方法包括:获取当前批次样本集;根据所述当前批次样本集中样本语料所携带的类目标注信息进行分组,使得携带相同类目标注信息的样本语料位于相同的样本语料组;基于当前语料处理模型得到所述样本语料的表征向量;计算样本语料的表征向量和同组样本语料的表征向量间的相关度,得到样本语料的第一相关度;计算样本语料的表征向量和异组样本语料的表征向量间的相关度,得到样本语料的第二相关度;根据所述第一相关度和所述第二相关度,调整所述当前语料处理模型的参数至满足模型收敛条件,以及将满足模型收敛条件的当前语料处理模型作为目标语料处理模型。本公开能够提高模型更新效率。

    语句分类模型训练方法、语句处理方法及设备

    公开(公告)号:CN113032560A

    公开(公告)日:2021-06-25

    申请号:CN202110279651.9

    申请日:2021-03-16

    Abstract: 本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。

    关键词识别模型的训练、提取方法、装置、设备及介质

    公开(公告)号:CN113468322B

    公开(公告)日:2024-06-21

    申请号:CN202110601525.0

    申请日:2021-05-31

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种关键词识别模型的训练、提取方法、装置、设备及介质,涉及自然语言处理领域,训练方法包括:获取文本样本集;将所述文本样本集中的各文本样本输入预训练后的语言模型进行单个字符类别预测,得到各所述文本样本对应的类别预测结果;确定各所述文本样本中每个字符的参考类别,得到各所述文本样本对应的类别标签结果;所述参考类别指示相应字符是否为多字关键词的边界字符;根据各所述文本样本的对应的类别预测结果和类别标签结果,计算得到损失数据;基于所述损失数据训练所述语言模型,得到文本关键词识别模型。利用本公开实施例提供的技术方案可以提升模型识别多字关键词的效率,以及提高从文本中提取关键词的效率。

    文本向量表征模型的训练和文本聚类

    公开(公告)号:CN113553858A

    公开(公告)日:2021-10-26

    申请号:CN202110862902.6

    申请日:2021-07-29

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。

    文本向量表征模型的训练和文本聚类

    公开(公告)号:CN113553858B

    公开(公告)日:2023-10-10

    申请号:CN202110862902.6

    申请日:2021-07-29

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。

Patent Agency Ranking