-
公开(公告)号:CN117787342A
公开(公告)日:2024-03-29
申请号:CN202311823159.9
申请日:2023-12-27
Applicant: 哈尔滨工业大学 , 度小满科技(北京)有限公司
IPC: G06N3/0455 , G06N3/0499 , G06N3/082 , G06N3/084 , G06N3/096 , G06N3/0985 , G06F18/22
Abstract: 用于视觉语言模型的自适应标记与注意力剪枝方法,涉及数据处理技术领域。本发明是为了解决现有视觉语言模型加速方法处理后的视觉语言模型性能差,最终导致视觉语言模型在处理图像文本匹配时准确率低的问题。本发明包括:获取图像序列和文本序列,将图像序列和文本序列组成原始数据集,将原始数据集划分为训练集、测试集;将修剪器加入到预训练好的主干模型中获得剪枝模型,利用训练集对剪枝模型进行训练,获得训练好的剪枝模型;所述剪枝模型包括:单模态编码器、加入修剪器的跨模态编码器;利用测试集对训练好的剪枝模型进行测试,获得最终的剪枝模型。本发明用于修剪视觉语言模型冗余标记和注意力头。
-
公开(公告)号:CN119938655A
公开(公告)日:2025-05-06
申请号:CN202411868324.7
申请日:2024-12-18
Applicant: 度小满科技(北京)有限公司
IPC: G06F16/215 , G06F16/22 , G06N20/00 , G06N5/04
Abstract: 本申请提供了一种数据去重方法、装置及电子设备,该方法通过对训练大语言模型的各文本数据集合(即全局数据)采用多轮次分发局部去重策略进行局部去重处理,得到包含若干条目标样本数据的第一目标去重文本集合,即使在单机内存不足以支持全局数据去重处理的现实限制情况下,快速由内存较小的第一处理设备对全局数据进行多轮次的局部去重处理,充分提高了内存的利用率,降低了数据去重的数据量,有助于提高数据去重的处理效率。然后将该若干条目标样本数据确定为训练大语言模型的目标训练样本数据。如此,可有效减少大语言模型训练时无用重复数据的数据量,有助于保障大语言模型的训练效果以及训练效率。
-
公开(公告)号:CN114067182B
公开(公告)日:2025-04-04
申请号:CN202111402141.2
申请日:2021-11-19
Applicant: 度小满科技(北京)有限公司
IPC: G06V10/774 , G06V10/776 , G06V30/10
Abstract: 本发明公开了一种模型的处理方法、装置、存储介质以及电子设备。其中,该方法包括:响应于对目标模型的部署指令,获取目标模型包,其中,目标模型包至少包括目标模型和目标字段,目标模型用于识别目标图像中与目标字段对应的待识别文本;利用多个设备对目标模型包进行验证,得到目标验证结果,其中,多个设备中的至少一个设备上部署目标模型;基于目标验证结果确定是否将目标模型包部署至目标平台。本发明解决了相关技术中在平台中部署模型效率较低的技术问题。
-
公开(公告)号:CN119724160A
公开(公告)日:2025-03-28
申请号:CN202411737914.6
申请日:2024-11-29
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请公开了一种语音识别纠错方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法将大语言模型应用到语音识别纠错任务中,直接将声学模型生成帧级别的音素概率分布全部输入到经过预训练的大语言模型中,尽可能多的保留了有用信息,大语言模型根据前后帧的全局信息进行语音识别纠正,根据全局信息进行语音识别纠正,对于上下文理解更全面,在纠错任务中能够检测到更复杂的语法错误、逻辑错误和事实错误,从而提供了更全面、一致和连贯的结果。
-
公开(公告)号:CN119718643A
公开(公告)日:2025-03-28
申请号:CN202411781522.X
申请日:2024-12-05
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请提供了一种模型训练的数据处理方法、装置及电子设备,涉及计算机技术领域。在本申请中,由于预先针对目标模型在前向传播过程中生成的多个临时数据分别设置了数据处理方式,来确定是否在前向传播过程中从目标模型的目标显存中卸载对应的临时数据,以及在反向传播过程中将对应的临时数据重载到目标显存中。故而在目标模型的模型训练的过程中,一旦确定目标模型在前向传播过程中产生的第一临时数据的数据处理方式,便可基于第一临时数据的数据处理方式对第一临时数据进行数据处理。采用这种方式,通过卸载和重载多个临时数据中的部分临时数据,可以实现在既不影响模型训练速度的情况下又能有效地管理和节约目标显存。
-
公开(公告)号:CN119648373A
公开(公告)日:2025-03-18
申请号:CN202411592614.3
申请日:2024-11-08
Applicant: 度小满科技(北京)有限公司
IPC: G06Q40/03 , G06F18/2415 , G06F18/214 , G06F18/21 , G06N3/0442
Abstract: 本申请实施例提供信贷风险预测模型训练方法、信贷风险预测方法,该模型训练方法利用用户的历史信贷交易记录数据、用户的历史社交记录数据对基于时序图网络构建的初始信贷风险预测模型进行训练,并根据信贷风险预测模型输出的预测信贷评估结果与各训练样本数据对应的用户的真实信贷逾期结果之间的目标数据差异对模型参数进行调整,直至目标数据差异小于预设数据差异阈值,将目标数据差异小于预设数据差异阈值的信贷风险预测模型确定为训练好的目标信贷风险预测模型。如此该目标信贷风险预测模型能够根据用户的历史信贷交易记录数据以及用户的历史社交关系记录数据,综合给出一个更为精准的风险预测结果,有助于提高信贷风险评估的准确性。
-
公开(公告)号:CN119558301A
公开(公告)日:2025-03-04
申请号:CN202411618334.5
申请日:2024-11-13
Applicant: 度小满科技(北京)有限公司
IPC: G06F40/20 , G06N3/0442 , G06N3/045
Abstract: 本申请公开了一种基于混合专家模型的长文本分析方法、装置及设备,获取待分析的长文本;将所述长文本输入至目标分析模型,得到目标注意力结果;所述目标分析模型包括基于混合专家模型改进的门控注意力单元;基于所述目标注意力结果,生成所述长文本对应的分析结果,能够在提高计算效率的基础上,有效提高模型分析准确性。
-
公开(公告)号:CN118429074A
公开(公告)日:2024-08-02
申请号:CN202410164602.4
申请日:2024-02-05
Applicant: 度小满科技(北京)有限公司
IPC: G06Q40/03 , G06F16/9535 , G06F16/9537
Abstract: 本申请提供了一种定位分析方法、装置、设备以及可读存储介质,该方法包括:接收来自第一应用程序采集的地理位置信息,地理位置信息表征用户的地理位置以及时间,用户为与金融借贷公司有过历史业务的用户,第一应用程序为金融贷款应用程序;根据接收到第一区域中的所有用户的地理位置信息确定目标区域;目标区域为具备贷款业务潜在客户的区域。
-
公开(公告)号:CN118175041A
公开(公告)日:2024-06-11
申请号:CN202410435610.8
申请日:2024-04-11
Applicant: 度小满科技(北京)有限公司
IPC: H04L41/082 , H04L41/14
Abstract: 本发明提供一种系统单元更新方法、装置、电子设备及可读存储介质,包括:接收上传的网络模型与对应所述网络模型的数据集;打包所述网络模型和对应的所述数据集,生成第一服务单元;获取所述第一服务单元的业务需求;按照所述业务需求,通过主服务单元调控所述第一服务单元的机器资源;接收目标第一服务单元的更新信息;根据所述更新信息中的业务需求调控所述目标第一服务单元的机器资源,进行目标第一服务单元更新。本发明中的各个网络模型之间可以独立更新,避免大量验证工作,同时可以根据各个服务的业务需求分配对应资源,提高资源利用率。
-
公开(公告)号:CN118035934A
公开(公告)日:2024-05-14
申请号:CN202410137353.X
申请日:2024-01-31
Applicant: 度小满科技(北京)有限公司
Abstract: 本申请提供了一种特征信息融合方法、装置、设备以及可读存储介质,该方法包括:将N路输入数据进行预处理,得到N路隐向量;将N路隐向量通过多塔编码层中的编码器进行处理,得到N路特征向量;计算每路特征向量的查询向量、键向量和值向量;根据每路特征向量及其对应查询向量计算得到每路特征向量的第一融合特征向量,单路特征向量的第一融合特征向量包括单路特征向量与其它特征向量之间的关联信息;将N路输入数据对应的第一融合特征向量进行融合,得到第二融合特征向量,第二融合特征向量包括N路特征向量中,每个特征向量与其它特征向量之间的关联信息。
-
-
-
-
-
-
-
-
-