关键词识别模型的训练、提取方法、装置、设备及介质

    公开(公告)号:CN113468322B

    公开(公告)日:2024-06-21

    申请号:CN202110601525.0

    申请日:2021-05-31

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种关键词识别模型的训练、提取方法、装置、设备及介质,涉及自然语言处理领域,训练方法包括:获取文本样本集;将所述文本样本集中的各文本样本输入预训练后的语言模型进行单个字符类别预测,得到各所述文本样本对应的类别预测结果;确定各所述文本样本中每个字符的参考类别,得到各所述文本样本对应的类别标签结果;所述参考类别指示相应字符是否为多字关键词的边界字符;根据各所述文本样本的对应的类别预测结果和类别标签结果,计算得到损失数据;基于所述损失数据训练所述语言模型,得到文本关键词识别模型。利用本公开实施例提供的技术方案可以提升模型识别多字关键词的效率,以及提高从文本中提取关键词的效率。

    文本向量表征模型的训练和文本聚类

    公开(公告)号:CN113553858A

    公开(公告)日:2021-10-26

    申请号:CN202110862902.6

    申请日:2021-07-29

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。

    语句分类模型训练方法、语句处理方法及设备

    公开(公告)号:CN113032560B

    公开(公告)日:2023-10-27

    申请号:CN202110279651.9

    申请日:2021-03-16

    Abstract: 本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。

    语句分类模型训练方法、语句处理方法及设备

    公开(公告)号:CN113032560A

    公开(公告)日:2021-06-25

    申请号:CN202110279651.9

    申请日:2021-03-16

    Abstract: 本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。

    文本分类模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN114691860A

    公开(公告)日:2022-07-01

    申请号:CN202011560064.9

    申请日:2020-12-25

    Abstract: 本公开提供了一种文本分类模型的训练方法、装置、电子设备及存储介质,属于机器学习技术领域。方法包括:基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到样本标题文本的概率向量;确定第一类别标签的目标标签权重,第一类别标签为样本标题文本所属的类别标签,目标标签权重的大小与属于第一类别标签的样本标题文本的数量成反比;根据概率向量和目标标签权重,确定本次迭代过程的第一损失值;响应于第一损失值符合目标条件,将文本分类模型作为训练完毕的文本分类模型。上述方法,使训练得到的文本分类模型能够对数据量较少的类别标签的特征进行有效的学习,从而提高文本分类模型的准确率。

    模型训练方法、装置、电子设备、介质及产品

    公开(公告)号:CN113051430B

    公开(公告)日:2024-03-26

    申请号:CN202110324886.5

    申请日:2021-03-26

    Abstract: 本公开提供了视频分析模型训练方法、装置、设备、介质及产品,在训练机器学习模型的过程中,是将样本视频的图像集合作为输入,而不是将整个样本视频作为输入。样本视频的图像集合包含第二视频图像以及从样本视频中抽取得到的第一视频图像。第二视频图像为设定图像,由于样本视频的图像集合包含的图像数目小于样本视频包含的所有图像的数目,所以训练机器学习模型的速度较快。由于第二视频图像可能与样本视频无关,所以需要确定掩膜参数,掩膜参数用于记录图像集合中有效图像的位置以及无效图像的位置,将图像集合和掩膜参数作为输入机器学习模型,以使得机器学习模型基于第一视频图像得到样本视频的分析结果。使得训练的机器学习模型更加准确。

    关键词识别模型的训练、提取方法、装置、设备及介质

    公开(公告)号:CN113468322A

    公开(公告)日:2021-10-01

    申请号:CN202110601525.0

    申请日:2021-05-31

    Inventor: 尚航 吕廷迅

    Abstract: 本公开关于一种关键词识别模型的训练、提取方法、装置、设备及介质,涉及自然语言处理领域,训练方法包括:获取文本样本集;将所述文本样本集中的各文本样本输入预训练后的语言模型进行单个字符类别预测,得到各所述文本样本对应的类别预测结果;确定各所述文本样本中每个字符的参考类别,得到各所述文本样本对应的类别标签结果;所述参考类别指示相应字符是否为多字关键词的边界字符;根据各所述文本样本的对应的类别预测结果和类别标签结果,计算得到损失数据;基于所述损失数据训练所述语言模型,得到文本关键词识别模型。利用本公开实施例提供的技术方案可以提升模型识别多字关键词的效率,以及提高从文本中提取关键词的效率。

    对象类别的识别方法和装置及服务器

    公开(公告)号:CN112733969B

    公开(公告)日:2021-08-17

    申请号:CN202110344172.0

    申请日:2021-03-31

    Abstract: 本公开关于一种对象类别的识别方法和装置及服务器。其中,该方法包括:获取待检索图像;识别待检索图像,得到待检索图像的目标特征向量;从聚类中心集合中获取与目标特征向量之间的距离最近的目标聚类中心,其中,聚类中心集合包括:至少一个对象类别,以及每个对象类别对应的多个聚类中心;获取目标聚类中心对应的对象类别,作为待检索图像的分类识别结果。本公开实施例通过聚类的方式构建聚类中心集合,并通过获取最近距离的目标聚类中心,得到分类识别结果,无需建立全部图像的数据结构,达到降低新增数据或新增分类的开销,提升对象类别的识别方法扩展性的效果,进而解决了相关技术中通过构建检索索引图实现图像匹配的方法扩展性较差的问题。

    模型训练方法、装置、电子设备、介质及产品

    公开(公告)号:CN113051430A

    公开(公告)日:2021-06-29

    申请号:CN202110324886.5

    申请日:2021-03-26

    Abstract: 本公开提供了视频分析模型训练方法、装置、设备、介质及产品,在训练机器学习模型的过程中,是将样本视频的图像集合作为输入,而不是将整个样本视频作为输入。样本视频的图像集合包含第二视频图像以及从样本视频中抽取得到的第一视频图像。第二视频图像为设定图像,由于样本视频的图像集合包含的图像数目小于样本视频包含的所有图像的数目,所以训练机器学习模型的速度较快。由于第二视频图像可能与样本视频无关,所以需要确定掩膜参数,掩膜参数用于记录图像集合中有效图像的位置以及无效图像的位置,将图像集合和掩膜参数作为输入机器学习模型,以使得机器学习模型基于第一视频图像得到样本视频的分析结果。使得训练的机器学习模型更加准确。

Patent Agency Ranking