一种数据去重方法、装置及电子设备

    公开(公告)号:CN119938655A

    公开(公告)日:2025-05-06

    申请号:CN202411868324.7

    申请日:2024-12-18

    Inventor: 刘洪涛 袁玥 杨青

    Abstract: 本申请提供了一种数据去重方法、装置及电子设备,该方法通过对训练大语言模型的各文本数据集合(即全局数据)采用多轮次分发局部去重策略进行局部去重处理,得到包含若干条目标样本数据的第一目标去重文本集合,即使在单机内存不足以支持全局数据去重处理的现实限制情况下,快速由内存较小的第一处理设备对全局数据进行多轮次的局部去重处理,充分提高了内存的利用率,降低了数据去重的数据量,有助于提高数据去重的处理效率。然后将该若干条目标样本数据确定为训练大语言模型的目标训练样本数据。如此,可有效减少大语言模型训练时无用重复数据的数据量,有助于保障大语言模型的训练效果以及训练效率。

    模型的处理方法、装置、存储介质以及电子设备

    公开(公告)号:CN114067182B

    公开(公告)日:2025-04-04

    申请号:CN202111402141.2

    申请日:2021-11-19

    Inventor: 朱舂彦 杨青

    Abstract: 本发明公开了一种模型的处理方法、装置、存储介质以及电子设备。其中,该方法包括:响应于对目标模型的部署指令,获取目标模型包,其中,目标模型包至少包括目标模型和目标字段,目标模型用于识别目标图像中与目标字段对应的待识别文本;利用多个设备对目标模型包进行验证,得到目标验证结果,其中,多个设备中的至少一个设备上部署目标模型;基于目标验证结果确定是否将目标模型包部署至目标平台。本发明解决了相关技术中在平台中部署模型效率较低的技术问题。

    一种语音识别纠错方法及相关设备

    公开(公告)号:CN119724160A

    公开(公告)日:2025-03-28

    申请号:CN202411737914.6

    申请日:2024-11-29

    Abstract: 本申请公开了一种语音识别纠错方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法将大语言模型应用到语音识别纠错任务中,直接将声学模型生成帧级别的音素概率分布全部输入到经过预训练的大语言模型中,尽可能多的保留了有用信息,大语言模型根据前后帧的全局信息进行语音识别纠正,根据全局信息进行语音识别纠正,对于上下文理解更全面,在纠错任务中能够检测到更复杂的语法错误、逻辑错误和事实错误,从而提供了更全面、一致和连贯的结果。

    一种模型训练的数据处理方法、装置及电子设备

    公开(公告)号:CN119718643A

    公开(公告)日:2025-03-28

    申请号:CN202411781522.X

    申请日:2024-12-05

    Abstract: 本申请提供了一种模型训练的数据处理方法、装置及电子设备,涉及计算机技术领域。在本申请中,由于预先针对目标模型在前向传播过程中生成的多个临时数据分别设置了数据处理方式,来确定是否在前向传播过程中从目标模型的目标显存中卸载对应的临时数据,以及在反向传播过程中将对应的临时数据重载到目标显存中。故而在目标模型的模型训练的过程中,一旦确定目标模型在前向传播过程中产生的第一临时数据的数据处理方式,便可基于第一临时数据的数据处理方式对第一临时数据进行数据处理。采用这种方式,通过卸载和重载多个临时数据中的部分临时数据,可以实现在既不影响模型训练速度的情况下又能有效地管理和节约目标显存。

    信贷风险预测模型训练方法、信贷风险预测方法

    公开(公告)号:CN119648373A

    公开(公告)日:2025-03-18

    申请号:CN202411592614.3

    申请日:2024-11-08

    Inventor: 康绍舜 杨青

    Abstract: 本申请实施例提供信贷风险预测模型训练方法、信贷风险预测方法,该模型训练方法利用用户的历史信贷交易记录数据、用户的历史社交记录数据对基于时序图网络构建的初始信贷风险预测模型进行训练,并根据信贷风险预测模型输出的预测信贷评估结果与各训练样本数据对应的用户的真实信贷逾期结果之间的目标数据差异对模型参数进行调整,直至目标数据差异小于预设数据差异阈值,将目标数据差异小于预设数据差异阈值的信贷风险预测模型确定为训练好的目标信贷风险预测模型。如此该目标信贷风险预测模型能够根据用户的历史信贷交易记录数据以及用户的历史社交关系记录数据,综合给出一个更为精准的风险预测结果,有助于提高信贷风险评估的准确性。

    系统单元更新方法、装置、电子设备及可读存储介质

    公开(公告)号:CN118175041A

    公开(公告)日:2024-06-11

    申请号:CN202410435610.8

    申请日:2024-04-11

    Abstract: 本发明提供一种系统单元更新方法、装置、电子设备及可读存储介质,包括:接收上传的网络模型与对应所述网络模型的数据集;打包所述网络模型和对应的所述数据集,生成第一服务单元;获取所述第一服务单元的业务需求;按照所述业务需求,通过主服务单元调控所述第一服务单元的机器资源;接收目标第一服务单元的更新信息;根据所述更新信息中的业务需求调控所述目标第一服务单元的机器资源,进行目标第一服务单元更新。本发明中的各个网络模型之间可以独立更新,避免大量验证工作,同时可以根据各个服务的业务需求分配对应资源,提高资源利用率。

    一种特征信息融合方法、装置、设备以及可读存储介质

    公开(公告)号:CN118035934A

    公开(公告)日:2024-05-14

    申请号:CN202410137353.X

    申请日:2024-01-31

    Inventor: 李俊辰 杨青

    Abstract: 本申请提供了一种特征信息融合方法、装置、设备以及可读存储介质,该方法包括:将N路输入数据进行预处理,得到N路隐向量;将N路隐向量通过多塔编码层中的编码器进行处理,得到N路特征向量;计算每路特征向量的查询向量、键向量和值向量;根据每路特征向量及其对应查询向量计算得到每路特征向量的第一融合特征向量,单路特征向量的第一融合特征向量包括单路特征向量与其它特征向量之间的关联信息;将N路输入数据对应的第一融合特征向量进行融合,得到第二融合特征向量,第二融合特征向量包括N路特征向量中,每个特征向量与其它特征向量之间的关联信息。

Patent Agency Ranking