-
公开(公告)号:CN113392952A
公开(公告)日:2021-09-14
申请号:CN202110564559.7
申请日:2021-05-24
Applicant: 吉林大学
Abstract: 本申请实施例公开了一种动态优势函数的建模方法,涉及深度强化学习领域。方法包括:针对静态优势函数的演员‑评论家模型中包括的静态优势函数添加权重因子,得到第一动态优势函数;基于长短期记忆网络模型对所述演员‑评论家模型中包括的原始策略网络进行动作延迟跟随和重构,得到第二动态优势函数;基于所述第一动态优势函数和所述第二动态优势函数构成所述动态优势函数。采用本申请实施例,可以解决现有的基于静态优势函数的演员‑评论家模型需要大量样本数据支撑训练,以及针对智能体的训练初期效果不理想、模型学习效率低、鲁棒性差的问题。
-
公开(公告)号:CN119761454A
公开(公告)日:2025-04-04
申请号:CN202510248451.5
申请日:2025-03-04
Applicant: 吉林大学
Abstract: 本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法,包括:针对持续学习任务序列中的每一个任务,使用该任务对应的数据集,利用量化空间对齐方法将状态空间和动作空间对齐,以得到相同空间下的状态序列和动作序列;获取单时间步奖励序列,并利用奖励函数计算出累积折扣奖励和序列;基于该任务的状态序列,将累积折扣奖励和序列作为扩散模型的条件信息,利用被激活的扩散模型生成给定状态序列,再利用逆动力学模型生成给定动作序列;将各任务累积的折扣奖励和的最大化作为目标,进行持续强化学习,以更新各任务对应的扩散模型参数,和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行,并有效缓解了灾难性遗忘。
-
公开(公告)号:CN115648204B
公开(公告)日:2024-08-27
申请号:CN202211172621.9
申请日:2022-09-26
Applicant: 吉林大学
Abstract: 本申请公开了一种智能决策模型的训练方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,获取了机器人在目标环境中采集到的外部信息,将外部信息输入智能决策模型,由智能决策模型的分布式执行者模型输出多个动作分支,该多个动作分支均是在获取到该外部信息的情况下,该机器人在该目标环境中可能执行的动作。基于外部信息和该多个动作分支,确定各个动作分支的奖励值分布,也即是对多个动作分支均进行了评价。基于多个动作分支的奖励值分布,进行奖励聚合确定混合奖励和集成奖励。基于所述混合奖励和所述集成奖励以及外部信息对该智能决策模型进行训练,能够达到较为稳定的训练效果。
-
公开(公告)号:CN110141229A
公开(公告)日:2019-08-20
申请号:CN201910480999.7
申请日:2019-06-04
Applicant: 吉林大学
IPC: A61B5/0476 , A61B5/00
Abstract: 本发明针对现有脑电成像过程中应用普通克里金插值法对样本脑电信号进行插值时仅靠经验选取变异函数模型参数的值的方法而导致的成像结果精确度低的问题,提供了一种便携式脑电成像设备及脑电成像优化方法,设备包括带有八个采集电极的固定头盔,每个采集电极均通过前值滤波放大单元和A/D转换单元与微处理器单元连接,优化方法在脑电成像过程中能够根据精度要求确定唯一的变异函数模型的参数的值,替代了以往通过经验选取的方法,实现了脑电成像的优化,提高了脑电成像的精确度,同时应用此方法的便携式脑电成像设备也验证了此方法的有效性,为脑电成像领域提供了一种较为可靠的成像结果优化方法。
-
公开(公告)号:CN117235531A
公开(公告)日:2023-12-15
申请号:CN202311470747.9
申请日:2023-11-07
Applicant: 吉林大学
IPC: G06F18/214 , G06N20/00 , G06F17/18 , G06F18/211
Abstract: 本申请公开了一种智能体训练方法、装置、存储介质及电子设备,其中方法包括:获取智能体在当前预设时长接收到的更新优势信号,基于更新优势信号更新智能体的动作网络,获取基于智能体执行动作网络中的动作数据所产生的环境业务数据,基于动作业务分布评估获取动作网络对应的动作业务数据,基于环境业务数据和动作业务数据,获取动作网络对应的混合业务数据,基于混合业务数据对智能体对应的第一状态网络进行状态更新得到第二状态网络,基于第二状态网络确定目标优势信号。采用本申请,通过使用有限的样本对智能体的各动作数据进行考虑,进而在减少计算量的同时对获取的优势信号更加准确,达到降低样本的采集复杂度,提高智能体的训练效率。
-
公开(公告)号:CN110141229B
公开(公告)日:2023-05-09
申请号:CN201910480999.7
申请日:2019-06-04
Applicant: 吉林大学
Abstract: 本发明针对现有脑电成像过程中应用普通克里金插值法对样本脑电信号进行插值时仅靠经验选取变异函数模型参数的值的方法而导致的成像结果精确度低的问题,提供了一种便携式脑电成像设备及脑电成像优化方法,设备包括带有八个采集电极的固定头盔,每个采集电极均通过前值滤波放大单元和A/D转换单元与微处理器单元连接,优化方法在脑电成像过程中能够根据精度要求确定唯一的变异函数模型的参数的值,替代了以往通过经验选取的方法,实现了脑电成像的优化,提高了脑电成像的精确度,同时应用此方法的便携式脑电成像设备也验证了此方法的有效性,为脑电成像领域提供了一种较为可靠的成像结果优化方法。
-
公开(公告)号:CN115648204A
公开(公告)日:2023-01-31
申请号:CN202211172621.9
申请日:2022-09-26
Applicant: 吉林大学
Abstract: 本申请公开了一种智能决策模型的训练方法、装置、设备以及存储介质,属于计算机技术领域。通过本申请实施例提供的技术方案,获取了机器人在目标环境中采集到的外部信息,将外部信息输入智能决策模型,由智能决策模型的分布式执行者模型输出多个动作分支,该多个动作分支均是在获取到该外部信息的情况下,该机器人在该目标环境中可能执行的动作。基于外部信息和该多个动作分支,确定各个动作分支的奖励值分布,也即是对多个动作分支均进行了评价。基于多个动作分支的奖励值分布,进行奖励聚合确定混合奖励和集成奖励。基于所述混合奖励和所述集成奖励以及外部信息对该智能决策模型进行训练,能够达到较为稳定的训练效果。
-
公开(公告)号:CN210330571U
公开(公告)日:2020-04-17
申请号:CN201920832576.2
申请日:2019-06-04
Applicant: 吉林大学
IPC: A61B5/0476 , A61B5/00
Abstract: 本实用新型针对现有脑电成像过程中应用普通克里金插值法对样本脑电信号进行插值时仅靠经验选取变异函数模型参数的值的方法而导致的成像结果精确度低的问题,提供了一种便携式脑电成像设备,并且提供了一种脑电成像优化方法,设备包括带有八个采集电极的固定头盔,每个采集电极均通过前值滤波放大单元和A/D转换单元与微处理器单元连接,优化方法在脑电成像过程中能够根据精度要求确定唯一的变异函数模型的参数的值,替代了以往通过经验选取的方法,实现了脑电成像的优化,提高了脑电成像的精确度,同时应用此方法的便携式脑电成像设备也验证了此方法的有效性,为脑电成像领域提供了一种较为可靠的成像结果优化方法。(ESM)同样的发明创造已同日申请发明专利
-
-
-
-
-
-
-