-
公开(公告)号:CN119558301A
公开(公告)日:2025-03-04
申请号:CN202411618334.5
申请日:2024-11-13
Applicant: 度小满科技(北京)有限公司
IPC: G06F40/20 , G06N3/0442 , G06N3/045
Abstract: 本申请公开了一种基于混合专家模型的长文本分析方法、装置及设备,获取待分析的长文本;将所述长文本输入至目标分析模型,得到目标注意力结果;所述目标分析模型包括基于混合专家模型改进的门控注意力单元;基于所述目标注意力结果,生成所述长文本对应的分析结果,能够在提高计算效率的基础上,有效提高模型分析准确性。
-
公开(公告)号:CN119917650A
公开(公告)日:2025-05-02
申请号:CN202411868325.1
申请日:2024-12-18
Applicant: 度小满科技(北京)有限公司
IPC: G06F16/335 , G06F16/334 , G06F16/353 , G06N3/0464 , G06N3/0455
Abstract: 本发明提供一种文本过滤模型训练方法、文本过滤方法及装置,训练方法包括:将训练文本序列输入待训练的文本过滤模型中,得到目标文本序列输入至目标文本处理模型中,得到目标文本处理模型输出目标预测值;基于目标预测值及训练文本序列标签,得到目标文本损失;基于目标文本损失训练文本过滤模型,得到目标文本过滤模型。通过训练文本过滤模型进行文本过滤,实现自动文本过滤的同时,能应对较多的长文本过滤场景,降低人工成本,提高文本过滤适用范围及效率,保证目标文本处理模型拟合性,且在目标文本处理模型前增加文本过滤模型进行文本过滤,无需改变目标文本处理模型的结构来进行文本过滤任务,保证目标文本处理模型的拟合能力及处理效率。
-
公开(公告)号:CN117556303A
公开(公告)日:2024-02-13
申请号:CN202311577843.3
申请日:2023-11-23
Applicant: 度小满科技(北京)有限公司
IPC: G06F18/24 , G06F18/214 , G06N3/09 , G06Q40/03
Abstract: 本发明提供一种分类模型训练方法、逾期风险预测方法及装置,该分类模型训练方法包括基于预设训练数据集对多个预设模型进行训练,得到多个候选分类模型;基于多个候选分类模型,对待训练的分类模型进行训练,得到目标分类模型;待训练的分类模型中包括多个分类层,至少两个分类层为基于不同候选分类模型训练得到。应用本发明实施例,通过基于多个预先训练的候选分类模型对待训练的分类模型中的各个分类层进行训练,得到目标分类模型,使得目标分类模型具有多个候选分类模型的性能,从而提高目标分类模型的泛化性以及分类准确性,同时,与现有的集成模型相比,在使用目标分类模型时无需使用多个模型进行并行推断,节省模型使用成本以及推断时间。
-
公开(公告)号:CN119128599A
公开(公告)日:2024-12-13
申请号:CN202411284041.8
申请日:2024-09-13
Applicant: 度小满科技(北京)有限公司
IPC: G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/08 , G06F17/16 , G06F40/289
Abstract: 本发明提供一种长文本分类模型训练方法、长文本分类方法及装置,包括:对长文本数据进行向量化,按照多种预设分块大小对目标向量进行分块,基于各分块的局部注意力,得到局部注意力;利用预设卷积层对目标向量的全局注意力参数卷积,并基于卷积后的全局注意力参数得到全局注意力,基于局部注意力及全局注意力对初始长文本分类模型训练。通过采用多种预设分块大小对目标向量进行分块,使得在利用一个分块大小分块损失的语义信息,被另一大小的分块补足,减少数据计算量的同时,减少分块带来的语义信息损失,提高模型准确性。再有,通过在计算全局注意力时使用卷积层,实现局部信息与全局信息的交互,进一步提高模型准确性。
-
公开(公告)号:CN117076979A
公开(公告)日:2023-11-17
申请号:CN202310955836.6
申请日:2023-07-31
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请提供了一种获取用户分类模型的方法、用户分类方法及相关装置,通过用户在预设时间段内浏览的每一原始文本中文本元素,确定其针对相应原始浏览数据的相似浏览频率,并基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,进一步,采用样本浏览数据训练预设分类模型学习每一用户的浏览喜好,进而在后续过程中,使用充分学习的用户分类模型,预测目标用户的类别,基于上述方式,一方面,根据每一原始文本的相似浏览频率及其文本元素获取信息量更强的样本浏览数据,从而采用样本浏览数据进行模型训练,提升模型的预测能力,另一方面,使用训练好的用户分类模型获取目标用户的类别,减少了用户分类成本。
-
公开(公告)号:CN116720427A
公开(公告)日:2023-09-08
申请号:CN202310506331.1
申请日:2023-05-06
Applicant: 度小满科技(北京)有限公司
Abstract: 本公开公开了一种模型蒸馏方法、装置、电子设备及计算机介质,方法包括:获取第一模型的输入信息,第一模型包括至少两个教师模型和学生模型;确定第一模型的预测结果,并基于损失函数和预测结果,计算教师模型和学生模型的中间层向量特征差异和预测结果差异;基于帕累托最优组合算法对中间层向量特征差异和预测结果差异进行组合优化,并将学生模型的预测结果作为第二模型的目标预测结果。本公开实施例通过帕累托最优组合算法优化中间层向量特征差异和预测结果差异,减少了学生模型预测结果和教师模型的差异。
-
-
-
-
-