Patent search ap:("南京大学") AND inv:"杨光" Page 1

1.

发明公开
一种基于强化学习的环境建模方法审中-实审

公开(公告)号：CN116579231A

公开(公告)日：2023-08-11

申请号：CN202310366576.9

申请日：2023-04-07

Applicant: 南京大学深圳研究院 , 江苏万维艾斯网络智能产业创新中心有限公司

Inventor： 蒋新成 , 高阳 , 霍静 , 李文斌 , 杨光 , 解宇 , 韩东

IPC: G06F30/27 , G06N3/092

Abstract: 本发明公开了一种基于强化学习的环境建模方法，旨在通过Model‑basedRL技术，将仿真环境进行建模并存储，旨在降低多智能体强化学习任务中的学习复杂度，进而提升后续多智能体强化学习算法高效求解模块的效率。包括仿真场景选择功能，仿真环境建模功能，环境模型存储功能。仿真场景选择功能包括应急管理、金融期货、交通控制仿真场景选择接入；仿真环境建模功能基于两种模式，即人工辅助模式或智能模式来针对不同的情况对仿真环境建模；环境模型存储功能将上述建模完毕的模型存储到相应的位置以供后续调用，以提升多智能体强化学习算法的学习效率。

2.

发明公开
一种深度强化学习决策解释系统审中-实审

公开(公告)号：CN116384480A

公开(公告)日：2023-07-04

申请号：CN202310350754.9

申请日：2023-04-04

Applicant: 南京大学深圳研究院 , 江苏万维艾斯网络智能产业创新中心有限公司

Inventor： 高阳 , 霍静 , 李文斌 , 杨光 , 庄韫恺 , 毛震 , 秦旺荣 , 韩东

IPC: G06N3/092 , G06N3/0455 , G06N5/01 , G06F18/243

Abstract: 本发明公开了一种深度强化学习决策解释系统，包括仿真环境接入功能，算法环境接口功能，算法训练功能，决策解释功能；所述仿真环境接入功能包含Gym环境、Atari环境、FlyBird环境以及扩展环境接入；所述算法环境接口功能将仿真环境中的状态、动作、奖励数据进行编码；所述算法训练功能基于DQN算法训练生成该环境下最优决策动作，并存储为神经网络模型文件；所述最优动作决策与仿真环境交互生成状态、动作数据集；所述决策解释功能根据状态、动作数据集生成概率决策树模型；所述概率决策树模型能可视化展示影响决策的属性及属性值，输出影响决策的相关属性值。

3.

发明公开
基于自适应策略调整的卡牌类游戏深度学习训练方法及系统审中-实审

公开(公告)号：CN118657189A

公开(公告)日：2024-09-17

申请号：CN202410614584.5

申请日：2024-05-17

Applicant: 南京大学

Inventor： 徐峥 , 杨光 , 李文斌 , 高阳

IPC: G06N3/092 , G06N3/084 , G06N3/0985 , A63F13/60 , G06N5/025 , G06N3/04

Abstract: 本发明公开了一种基于自适应策略调整的卡牌类游戏深度学习训练方法及系统，包括如下步骤：采用价值神经网络构建卡牌类游戏的策略基本模型；获取卡牌类游戏的经验知识；建立自适应经验知识融合正则项计算规则；建立自适应状态动作约简损失计算规则；对所述策略基本模型通过自博弈的方式采样，并使用包括自博弈损失和自适应策略调整损失的总损失函数和梯度下降法进行模型参数更新，完成训练；其中，所述自适应策略调整损失包括自适应经验知识融合正则项和自适应状态动作约简损失。本发明训练速度更快。

4.

发明公开
一种基于通信的大规模强化学习分布式训练系统的方法审中-实审

公开(公告)号：CN116402125A

公开(公告)日：2023-07-07

申请号：CN202310387420.9

申请日：2023-04-12

Applicant: 南京大学深圳研究院 , 江苏万维艾斯网络智能产业创新中心有限公司

Inventor： 张浩年 , 高阳 , 霍静 , 李文斌 , 杨光 , 余长州 , 韩东

IPC: G06N3/098 , H04L67/56 , G06N3/092 , G06N3/063 , G06N3/04

Abstract: 本发明提供了一种基于通信的大规模强化学习分布式训练系统的方法，属于分布式训练技术领域。包括通信中继器，所述通信中继器通过接收对多个并行环境的当前状态进行特征化的观测值，将并行环境观测值批处理后传送至共享经验池，学习器从共享经验池中获取小批量数据进行学习交互后，其中所述执行者使用Q策略网络选择执从预定动作集选择待执行的动作，通过通信中继器来与所述环境交互，其中所述Q策略网络是深度神经网络，所述深度神经网络被配置成将观测值和动作接收为输入并且根据数据集，从所述输入生成神经网络输出。本发明有效缓解了强化学习在单机环境下采样效率不高、训练速度慢的问题。

5.

发明公开
小分子化合物双水杨酸酯在制备治疗非酒精性脂肪肝病药物中的应用无效

公开(公告)号：CN112107585A

公开(公告)日：2020-12-22

申请号：CN202011210283.4

申请日：2020-11-03

Applicant: 南京大学

Inventor： 李尔广 , 杨光 , 陈昌买 , 李晶晶 , 张薇

IPC: A61K31/618 , A61P1/16

Abstract: 本发明属于医药生物技术领域，具体涉及一种小分子化合物双水杨酸酯在制备治疗非酒精性脂肪肝病药物中的应用。本发明通过体外酶活试验筛选，发现水杨酸类化合物具有直接激活AMPK酶活性的作用，包括双水杨酸酯(PubChem CID 5161)及药学上可接受的盐。这些化合物均能增加AMPK酶活性。进一步研究发现这些化合物可以在动物体内激活AMPK。可以逆转脂肪肝中AMPK活性抑制状态，降低肝脏脂肪堆积，在制备治疗非酒精性脂肪肝病药物中应用。

Patent Agency Ranking