-
公开(公告)号:CN113239634A
公开(公告)日:2021-08-10
申请号:CN202110654854.1
申请日:2021-06-11
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于鲁棒模仿学习的模拟器建模方法,涉及强化学习领域,包括以下步骤:从策略分布中采样出训练策略集合Π和测试策略集合Π′;令训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(πp*);每k步进行一次策略筛选;令策略π与学习到的模拟器进行交互,并计算价值差异VD,以衡量模拟器在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc;从Bc中采样数据,并利用Πc中的策略与当前模拟器交互以收集数据Dp,用以优化生成对抗模仿学习中的判别器Dω,以及用以优化生成对抗模仿学习中的生成器重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。
-
公开(公告)号:CN113239634B
公开(公告)日:2022-11-04
申请号:CN202110654854.1
申请日:2021-06-11
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于鲁棒模仿学习的模拟器建模方法,涉及强化学习领域,包括以下步骤:从策略分布中采样出训练策略集合Π和测试策略集合Π′;令训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(πp*);每k步进行一次策略筛选;令策略π与学习到的模拟器进行交互,并计算价值差异VD,以衡量模拟器在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc;从Bc中采样数据,并利用Πc中的策略与当前模拟器交互以收集数据Dp,用以优化生成对抗模仿学习中的判别器Dω,以及用以优化生成对抗模仿学习中的生成器重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。
-
公开(公告)号:CN109376528B
公开(公告)日:2022-11-29
申请号:CN201811258603.6
申请日:2018-10-26
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于区块链的可信身份管理系统和方法,涉及计算机网络安全领域,包括区块链模块、虚拟链模块和存储模块;区块链模块记录用户信息状态,和用户与应用服务器交互信息;虚拟链模块接收用户和应用服务器的请求,定义对区块链模块与存储模块的逻辑操作;存储模块保存用户的个人信息并进行备份;虚拟链模块位于区块链模块上层,存储模块位于虚拟链模块上层。本发明摆脱了对于保障用户信息安全性等而付出的人力和时间成本,解决了传统区块链低吞吐量和交易速度慢等问题。
-
公开(公告)号:CN109376528A
公开(公告)日:2019-02-22
申请号:CN201811258603.6
申请日:2018-10-26
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于区块链的可信身份管理系统和方法,涉及计算机网络安全领域,包括区块链模块、虚拟链模块和存储模块;区块链模块记录用户信息状态,和用户与应用服务器交互信息;虚拟链模块接收用户和应用服务器的请求,定义对区块链模块与存储模块的逻辑操作;存储模块保存用户的个人信息并进行备份;虚拟链模块位于区块链模块上层,存储模块位于虚拟链模块上层。本发明摆脱了对于保障用户信息安全性等而付出的人力和时间成本,解决了传统区块链低吞吐量和交易速度慢等问题。
-
-
-