智能体强化学习决策方法、装置、电子设备及其存储介质

    公开(公告)号:CN113780574A

    公开(公告)日:2021-12-10

    申请号:CN202110994653.6

    申请日:2021-08-27

    Applicant: 清华大学

    Abstract: 本申请属于智能决策技术领域,具体而言,涉及一种智能体强化学习决策方法、装置、电子设备及其存储介质。本方法首先根据被决策问题的多个约束条件建立约束方程,设计数个可显式求解的简单示例并求解并添加合适的奖励函数,得到一系列稀疏奖励的专家知识数据;将专家知识数据放置于DQN的回放缓冲模块中,获得既有专家知识数据又有环境学习数据的改进的回放缓冲模块Ex‑Replay buffer;智能体和环境交互后,将动作的概率分布输入至动作过滤模块获得合法动作,通过置信度函数确定是否选择过滤后的动作;损失函数中添加自适应项,调整使用动作过滤模块的频率。本方法数据集采集的过程更加高效、便捷,置信度函数可以为智能体选出对应任务的最佳策略。

    不均衡数据集知识迁移方法、装置、电子设备和存储介质

    公开(公告)号:CN113780379B

    公开(公告)日:2024-12-20

    申请号:CN202110994099.1

    申请日:2021-08-27

    Applicant: 清华大学

    Abstract: 本申请属于大规模图像的检索方法,具体而言涉及一种不均衡数据集知识迁移方法、装置、电子设备和存储介质。本方法首先对均衡的数据集进行随机采样,得到满足Zipf定律的长尾数据集;利用其中的数据得到每一张图像的直接特征,将每类图片的特征向量求和并求平均,获得类中心特征向量;根据类中心特征向量和每一类的全部特征向量得到每类中与类中心差距最大的数个边缘特征向量;将类中心向量及类边缘特征向量聚合在一起,得到关于整个数据集的记忆力模块;从记忆力模块中选择对应的特征,帮助网络将从头部学到的知识向尾部知识进行迁移。本公开无需根据样本不均衡程度对训练集进行重采样处理,或在计算损失函数时不需要知道样本的不均衡程度。

    不均衡数据集知识迁移方法、装置、电子设备和存储介质

    公开(公告)号:CN113780379A

    公开(公告)日:2021-12-10

    申请号:CN202110994099.1

    申请日:2021-08-27

    Applicant: 清华大学

    Abstract: 本申请属于大规模图像的检索方法,具体而言涉及一种不均衡数据集知识迁移方法、装置、电子设备和存储介质。本方法首先对均衡的数据集进行随机采样,得到满足Zipf定律的长尾数据集;利用其中的数据得到每一张图像的直接特征,将每类图片的特征向量求和并求平均,获得类中心特征向量;根据类中心特征向量和每一类的全部特征向量得到每类中与类中心差距最大的数个边缘特征向量;将类中心向量及类边缘特征向量聚合在一起,得到关于整个数据集的记忆力模块;从记忆力模块中选择对应的特征,帮助网络将从头部学到的知识向尾部知识进行迁移。本公开无需根据样本不均衡程度对训练集进行重采样处理,或在计算损失函数时不需要知道样本的不均衡程度。

Patent Agency Ranking