-
公开(公告)号:CN113657411B
公开(公告)日:2024-07-12
申请号:CN202110970481.9
申请日:2021-08-23
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本申请提供一种神经网络模型的训练方法、图像特征提取方法及相关装置,用于解决相关技术中自监督学习对硬件要求高且训练速度低的问题。在本申请实施例提供的对比学习方法中,提出了困难负样本对的概念,通过构建正样本对和困难负样本对,能够使得神经网络模型学习到正样本之间的特征,而且能够准确的区分差别较小的负样本。由此,保证了对困难负样本的学习,即保证了对差别较大的负样本的学习,使得神经网络模型能够准确的提取图像特征。
-
公开(公告)号:CN114691860A
公开(公告)日:2022-07-01
申请号:CN202011560064.9
申请日:2020-12-25
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/35 , G06F40/284 , G06K9/62 , G06N3/08 , G06F16/9535
Abstract: 本公开提供了一种文本分类模型的训练方法、装置、电子设备及存储介质,属于机器学习技术领域。方法包括:基于本次迭代过程对应的文本分类模型对样本标题文本进行分类,得到样本标题文本的概率向量;确定第一类别标签的目标标签权重,第一类别标签为样本标题文本所属的类别标签,目标标签权重的大小与属于第一类别标签的样本标题文本的数量成反比;根据概率向量和目标标签权重,确定本次迭代过程的第一损失值;响应于第一损失值符合目标条件,将文本分类模型作为训练完毕的文本分类模型。上述方法,使训练得到的文本分类模型能够对数据量较少的类别标签的特征进行有效的学习,从而提高文本分类模型的准确率。
-
公开(公告)号:CN113468322A
公开(公告)日:2021-10-01
申请号:CN202110601525.0
申请日:2021-05-31
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/35 , G06F16/332 , G06F40/284
Abstract: 本公开关于一种关键词识别模型的训练、提取方法、装置、设备及介质,涉及自然语言处理领域,训练方法包括:获取文本样本集;将所述文本样本集中的各文本样本输入预训练后的语言模型进行单个字符类别预测,得到各所述文本样本对应的类别预测结果;确定各所述文本样本中每个字符的参考类别,得到各所述文本样本对应的类别标签结果;所述参考类别指示相应字符是否为多字关键词的边界字符;根据各所述文本样本的对应的类别预测结果和类别标签结果,计算得到损失数据;基于所述损失数据训练所述语言模型,得到文本关键词识别模型。利用本公开实施例提供的技术方案可以提升模型识别多字关键词的效率,以及提高从文本中提取关键词的效率。
-
公开(公告)号:CN112149653B
公开(公告)日:2024-03-29
申请号:CN202010974510.4
申请日:2020-09-16
Applicant: 北京达佳互联信息技术有限公司
IPC: G06V10/764 , G06V10/44 , G06V30/19 , G06V30/18 , G06V10/80
Abstract: 本公开关于一种信息处理方法,所述方法包括:获取对象描述内容中的图像内容特征和文字内容特征;在所述图像内容特征中,确定目标图像内容特征;其中,所述目标图像内容特征所表征的对象信息与所述文字内容特征所表征的对象信息之间的关联程度满足预设条件;根据所述目标图像内容特征和所述文字内容特征,确定所述对象描述内容的目标分类结果。该方法能够准确地对对象描述内容进行分类。
-
公开(公告)号:CN113032560B
公开(公告)日:2023-10-27
申请号:CN202110279651.9
申请日:2021-03-16
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/35 , G06F18/214 , G06F18/2411
Abstract: 本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。
-
公开(公告)号:CN114564557A
公开(公告)日:2022-05-31
申请号:CN202011363647.2
申请日:2020-11-27
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种语料处理模型的更新方法、类目确定方法及装置。该方法包括:获取当前批次样本集;根据所述当前批次样本集中样本语料所携带的类目标注信息进行分组,使得携带相同类目标注信息的样本语料位于相同的样本语料组;基于当前语料处理模型得到所述样本语料的表征向量;计算样本语料的表征向量和同组样本语料的表征向量间的相关度,得到样本语料的第一相关度;计算样本语料的表征向量和异组样本语料的表征向量间的相关度,得到样本语料的第二相关度;根据所述第一相关度和所述第二相关度,调整所述当前语料处理模型的参数至满足模型收敛条件,以及将满足模型收敛条件的当前语料处理模型作为目标语料处理模型。本公开能够提高模型更新效率。
-
公开(公告)号:CN113032560A
公开(公告)日:2021-06-25
申请号:CN202110279651.9
申请日:2021-03-16
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开提供了一种语句分类模型训练方法、语句处理方法及设备,涉及计算机技术领域。本公开实施例的方法及装置,一方面,对样本语句对应的字向量信息中部分字的字向量进行了更改,将更改后的字向量信息作为样本语句分类的依据,使得语句分类模型对更改的样本语句依旧能够准确进行分类,增强了该语句分类模型对语句发生不定更改的适应性和抵抗性,提高了语句分类模型的鲁棒性。另一方面,通过更改样本语句中部分字的字向量,能够改变语句分类模型的关注点,训练过程使得该语句分类模型还能够对其进行准确分类,也就使得语句分类模型关注全局特征,不会过度关注局部特征,避免出现过度拟合的情况,提高语句分类模型的预测准确性。
-
公开(公告)号:CN113468322B
公开(公告)日:2024-06-21
申请号:CN202110601525.0
申请日:2021-05-31
Applicant: 北京达佳互联信息技术有限公司
IPC: G06F16/35 , G06F16/332 , G06F40/284
Abstract: 本公开关于一种关键词识别模型的训练、提取方法、装置、设备及介质,涉及自然语言处理领域,训练方法包括:获取文本样本集;将所述文本样本集中的各文本样本输入预训练后的语言模型进行单个字符类别预测,得到各所述文本样本对应的类别预测结果;确定各所述文本样本中每个字符的参考类别,得到各所述文本样本对应的类别标签结果;所述参考类别指示相应字符是否为多字关键词的边界字符;根据各所述文本样本的对应的类别预测结果和类别标签结果,计算得到损失数据;基于所述损失数据训练所述语言模型,得到文本关键词识别模型。利用本公开实施例提供的技术方案可以提升模型识别多字关键词的效率,以及提高从文本中提取关键词的效率。
-
公开(公告)号:CN113553858A
公开(公告)日:2021-10-26
申请号:CN202110862902.6
申请日:2021-07-29
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
-
公开(公告)号:CN113553858B
公开(公告)日:2023-10-10
申请号:CN202110862902.6
申请日:2021-07-29
Applicant: 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
-
-
-
-
-
-
-
-
-