一种数据增强模型的训练方法、数据增强方法、及装置

    公开(公告)号:CN118710889A

    公开(公告)日:2024-09-27

    申请号:CN202411184316.0

    申请日:2024-08-27

    Abstract: 本申请实施例提供了一种数据增强模型的训练方法、数据增强方法、及装置,涉及机器学习技术领域,该数据增强模型的训练方法包括:获取训练图像;利用初始结构的数据增强模型生成每一训练图像的数据增强变量的变量值;利用每一训练图像的数据增强变量的变量值,对该训练图像中对象的检测框进行变换处理,得到第一检测框;基于测试图像中表示同一类别对象的检测框,与表示该同一类别对象的第一检测框之间几何特征的差异,确定模型损失值;基于模型损失值对初始结构的数据增强模型的模型参数进行调参,直至达到预设收敛条件,得到训练完成的数据增强模型。通过本方案能够省去由专业人员人工调节超参数的过程,降低人工成本。

    一种图像处理方法、装置及设备
    22.
    发明公开

    公开(公告)号:CN115187845A

    公开(公告)日:2022-10-14

    申请号:CN202210815529.3

    申请日:2022-07-08

    Abstract: 本申请提供一种图像处理方法、装置及设备,该方法包括:获取待处理图像对应的输入特征;基于所述输入特征确定移位操作特征,基于所述输入特征和所述移位操作特征确定限定范围特征;基于所述移位操作特征和所述限定范围特征确定所述待处理图像对应的映射特征;基于所述映射特征进行归一化操作,得到归一化特征,并基于所述归一化特征确定所述待处理图像对应的输出特征;基于所述输出特征确定所述待处理图像对应的图像处理结果。通过本申请的技术方案,能够减轻运算复杂度,运算量较小,资源消耗较小。

    任务处理方法、装置、电子设备及存储介质

    公开(公告)号:CN119830956A

    公开(公告)日:2025-04-15

    申请号:CN202411863753.5

    申请日:2022-06-21

    Abstract: 本申请提供一种任务处理方法、装置、电子设备及存储介质,该方法包括:在对Transformer模型进行训练的过程中,对于Transformer模型中的任一归一化层,确定该归一化层当前批次的第一统计值,依据该第一统计值以及该归一化层历史批次的统计值,利用滑动平均策略,对该第一统计值进行平滑处理,得到第二统计值,并利用将该归一化层的第二统计值进行前向或反向传播;在利用训练好的Transformer模型进行任务处理的过程中,对于Transformer模型中的任一归一化层,将该归一化层的统计值固定为第三统计值进行推理计算。该方法可以在降低Transformer模型的计算内存消耗的情况下,保证处理性能。

    一种夜间可见光与热红外图像融合方法

    公开(公告)号:CN118799204A

    公开(公告)日:2024-10-18

    申请号:CN202411276518.8

    申请日:2024-09-12

    Abstract: 本发明涉及一种夜间可见光与热红外图像融合方法,属于图像处理领域。本发明基于图像分层理论,运用加权引导滤波和高斯滤波组合策略,分别将夜间可见光图像和热红外图像分解为基本、边缘和纹理层;然后提出基于视觉亮度感知特性的分层互补融合方法将夜间可见光图像和热红外图像的基本层、纹理层和边缘层进行融合重构。该方法不仅保留了可见光图像的自然色彩和纹理细节,同时融合了热红外图像的热辐射信息,显著提升了目标的显著性和图像的整体质量。

    一种智能巡店方法、装置、存储介质和电子设备

    公开(公告)号:CN118396125B

    公开(公告)日:2024-08-23

    申请号:CN202410848459.0

    申请日:2024-06-27

    Abstract: 本申请公开了一种智能巡店方法、装置、存储介质和电子设备,包括:基于采集的当前图像数据,利用多模态模型生成对应于所述图像数据的文本描述;将所述文本描述和巡检问题组成输入问题,利用针对所述巡店场景训练生成的场景大语言模型,对所述输入问题进行处理,生成对应所述输入问题的目标答案;基于所述目标答案进行问题上报和提醒;场景大语言模型是基于所述巡店场景的巡店规则在通用大语言模型基础上调优生成的,所述巡店规则至少包括开放性事件对应的规则。应用本申请,能够针对开放性事件实现远程智能巡检。

    一种适用于复杂监控场景的行人属性识别方法

    公开(公告)号:CN117115851A

    公开(公告)日:2023-11-24

    申请号:CN202310608449.5

    申请日:2023-05-27

    Abstract: 一种在监控场景下,基于去除深度模型在推理过程中学习到的冗余属性间共现偏置,以实现在变化场景下更好泛化性能的行人属性识别方法。包括:一种新的属性信息解耦特征的生成方式。在模型对某一属性的识别和推理过程中,利用特征的线性插值与标签的线性插值匹配这一先前研究中的实验观察,通过最小化该属性的特化特征与其他属性预测概率间的互信息,以减少对于其他属性信息的利用,在显著降低训练时间的前提下实现了更好的准确率;一种新的特征插值方法。本发明提出了方向‑范数分离的特征插值方法,该方法相比于原始的插值过程,可以更好地发掘与探索属性特征的分布域,进而提高了模型的最终效果;使用卷积神经网络,按照以上算法框架,以特定训练参数配置对模型进行训练,得到行人属性识别模型。本方法可以实现在发生时空变化的监控场景中更加精确和稳定的行人属性识别结果。

    一种网络模型的训练方法、装置及设备

    公开(公告)号:CN115062793A

    公开(公告)日:2022-09-16

    申请号:CN202210753273.8

    申请日:2022-06-28

    Abstract: 本申请提供一种网络模型的训练方法、装置及设备,该方法包括:获取网络层对应的浮点型激活梯度值,对浮点型激活梯度值进行量化,得到定点型激活梯度值和激活值量化超参;基于定点型激活梯度值对网络层的初始模型权重进行调整,将调整后的模型权重更新为所述网络层的初始模型权重;若所述网络层不是首个网络层,则对网络层的初始模型权重进行量化,得到反向定点型权重和反向权重值量化超参;基于所述定点型激活梯度值、所述反向定点型权重、所述激活值量化超参和所述反向权重值量化超参,确定所述网络层的前一个网络层对应的浮点型激活梯度值。通过本申请的技术方案,可以减轻运算复杂度,运算量较小,资源消耗较小,能够对训练过程进行加速。

    神经网络模型裁剪方法、装置、电子设备及存储介质

    公开(公告)号:CN114897164A

    公开(公告)日:2022-08-12

    申请号:CN202210615980.0

    申请日:2022-05-31

    Abstract: 本申请提供一种神经网络模型裁剪方法、装置、电子设备及存储介质,该方法包括:依据待裁剪神经网络模型的结构特性,将所述待裁剪神经网络模型划分为多个结构分组;依据对所述待裁剪神经网络模型进行裁剪前后的损失函数变化,确定对所述多个结构分组中各结构分组进行裁剪的目标裁剪率;其中,所述损失函数变化依据第一因子和第二因子确定,所述第一因子用于表征各结构分组中各个权重的重要性,所述第二因子用于表征不同结构分组之间的相互作用;依据所述目标裁剪率,分别对各结构分组进行裁剪,得到裁剪后的神经网络模型。该方法可以在较小性能损失的情况下加速压缩神经网络模型。

    基于共识图表征推理的定位自然图像字幕生成方法和装置

    公开(公告)号:CN111741236A

    公开(公告)日:2020-10-02

    申请号:CN202010857184.9

    申请日:2020-08-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。

Patent Agency Ranking