-
公开(公告)号:CN119558301A
公开(公告)日:2025-03-04
申请号:CN202411618334.5
申请日:2024-11-13
Applicant: 度小满科技(北京)有限公司
IPC: G06F40/20 , G06N3/0442 , G06N3/045
Abstract: 本申请公开了一种基于混合专家模型的长文本分析方法、装置及设备,获取待分析的长文本;将所述长文本输入至目标分析模型,得到目标注意力结果;所述目标分析模型包括基于混合专家模型改进的门控注意力单元;基于所述目标注意力结果,生成所述长文本对应的分析结果,能够在提高计算效率的基础上,有效提高模型分析准确性。
-
公开(公告)号:CN119128599A
公开(公告)日:2024-12-13
申请号:CN202411284041.8
申请日:2024-09-13
Applicant: 度小满科技(北京)有限公司
IPC: G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/08 , G06F17/16 , G06F40/289
Abstract: 本发明提供一种长文本分类模型训练方法、长文本分类方法及装置,包括:对长文本数据进行向量化,按照多种预设分块大小对目标向量进行分块,基于各分块的局部注意力,得到局部注意力;利用预设卷积层对目标向量的全局注意力参数卷积,并基于卷积后的全局注意力参数得到全局注意力,基于局部注意力及全局注意力对初始长文本分类模型训练。通过采用多种预设分块大小对目标向量进行分块,使得在利用一个分块大小分块损失的语义信息,被另一大小的分块补足,减少数据计算量的同时,减少分块带来的语义信息损失,提高模型准确性。再有,通过在计算全局注意力时使用卷积层,实现局部信息与全局信息的交互,进一步提高模型准确性。
-
公开(公告)号:CN117076979A
公开(公告)日:2023-11-17
申请号:CN202310955836.6
申请日:2023-07-31
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请提供了一种获取用户分类模型的方法、用户分类方法及相关装置,通过用户在预设时间段内浏览的每一原始文本中文本元素,确定其针对相应原始浏览数据的相似浏览频率,并基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,进一步,采用样本浏览数据训练预设分类模型学习每一用户的浏览喜好,进而在后续过程中,使用充分学习的用户分类模型,预测目标用户的类别,基于上述方式,一方面,根据每一原始文本的相似浏览频率及其文本元素获取信息量更强的样本浏览数据,从而采用样本浏览数据进行模型训练,提升模型的预测能力,另一方面,使用训练好的用户分类模型获取目标用户的类别,减少了用户分类成本。
-
公开(公告)号:CN116720427A
公开(公告)日:2023-09-08
申请号:CN202310506331.1
申请日:2023-05-06
Applicant: 度小满科技(北京)有限公司
Abstract: 本公开公开了一种模型蒸馏方法、装置、电子设备及计算机介质,方法包括:获取第一模型的输入信息,第一模型包括至少两个教师模型和学生模型;确定第一模型的预测结果,并基于损失函数和预测结果,计算教师模型和学生模型的中间层向量特征差异和预测结果差异;基于帕累托最优组合算法对中间层向量特征差异和预测结果差异进行组合优化,并将学生模型的预测结果作为第二模型的目标预测结果。本公开实施例通过帕累托最优组合算法优化中间层向量特征差异和预测结果差异,减少了学生模型预测结果和教师模型的差异。
-
-
-