一种弱监督场景下基于强化学习的深度神经网络训练方法

    公开(公告)号:CN112364980A

    公开(公告)日:2021-02-12

    申请号:CN202011238536.9

    申请日:2020-11-09

    Inventor: 李昱江 王浩枫

    Abstract: 本发明公开了一种弱监督场景下基于强化学习的深度神经网络训练方法,包括:通过弱监督学习生成弱监督标注样本;合并弱监督标注样本与人工标注样本得到混合训练数据集;采用混合训练数据集对联合目标任务和数据源鉴别任务的深度神经网络进行预训练;采用强化学习进行样本加权,初始化代理器的参数并加载预训练环境的参数,代理器为所述强化学习模型,环境为所述联合目标任务和数据源鉴别任务的深度神经网络;代理器与环境进行若干轮交互训练,交互训练为马尔可夫决策过程,代理器与环境在交互训练中进行零和博弈。该方法通过在深度神经网络的训练过程中应用自适应样本加权策略,提升了深度神经网络对弱监督标注样本中的噪声和冗余信息的鲁棒性。

Patent Agency Ranking