-
公开(公告)号:CN117933346A
公开(公告)日:2024-04-26
申请号:CN202410339613.1
申请日:2024-03-25
Applicant: 之江实验室
IPC: G06N3/0895 , G06N3/092 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于自监督强化学习的即时奖励学习方法,获取高维图像数据集,高维图像数据集中包括若干带有终止状态成功或者失败标识的图像;利用高维图像数据集训练自监督学习模型,得到对应的低维特征;利用高维图像数据带有的终止状态的标识,基于低维特征,得到成功特征和失败特征;利用监督学习方法训练状态转移模型,并利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励;基于即时奖励,利用强化学习方法进行决策。本发明可以减少强化学习方法中奖励的人工设计及标注,使得即时奖励的获取智能化。同时,这种即时奖励学习方法可以扩充强化学习的应用范围,扩展了强化学习框架的实际应用,具有广阔的场景。
-
公开(公告)号:CN117933346B
公开(公告)日:2024-07-23
申请号:CN202410339613.1
申请日:2024-03-25
Applicant: 之江实验室
IPC: G06N3/0895 , G06N3/092 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于自监督强化学习的即时奖励学习方法,获取高维图像数据集,高维图像数据集中包括若干带有终止状态成功或者失败标识的图像;利用高维图像数据集训练自监督学习模型,得到对应的低维特征;利用高维图像数据带有的终止状态的标识,基于低维特征,得到成功特征和失败特征;利用监督学习方法训练状态转移模型,并利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励;基于即时奖励,利用强化学习方法进行决策。本发明可以减少强化学习方法中奖励的人工设计及标注,使得即时奖励的获取智能化。同时,这种即时奖励学习方法可以扩充强化学习的应用范围,扩展了强化学习框架的实际应用,具有广阔的场景。
-
公开(公告)号:CN118155280A
公开(公告)日:2024-06-07
申请号:CN202410271438.7
申请日:2024-03-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多模态数据频域融合的人体行为预测方法,包括:获取多模态数据并清洗数据,其中所述多模态数据包括光学运动捕捉数据、文本数据和视频数据;利用傅里叶变换把各模态的数据分别转换到频域中,得到各模态数据对应的一维频域向量;对得到的一维频域向量进行预处理,拼接为一个一维向量;利用人体行为预测模型对预处理后的一维频域向量进行处理,得到下一预测状态的融合频域信息;对所述融合频域信息进行后处理,并将得到的各模态频域预测信息利用傅里叶逆变换技术转换为各模态对应的时域预测数据。
-
公开(公告)号:CN117953351A
公开(公告)日:2024-04-30
申请号:CN202410355666.2
申请日:2024-03-27
Applicant: 之江实验室
IPC: G06V10/82 , G06V10/44 , G06V10/77 , G06N3/092 , G06N3/0895 , G06N3/0985 , G06N3/0464 , G06N3/0455
Abstract: 本发明公开了一种基于模型强化学习的决策方法,包括:获取高维图像数据集;利用自监督学习方法从所述高维图像数据集中学习对应的低维特征;在低维特征空间中,利用Transformer架构构建强化学习的世界模型;利用构建的世界模型向前想象若干步,根据想象轨迹的回报进行前向搜索,得出最优策略。与随机决策相比,这种方法减少决策的随机性,可以提高决策效率,根据智能体现有的决策能力进行决策,克服了样本效率过低、增加了处理动态环境中不确定性的能力,进而达到更优且稳健的策略。
-
公开(公告)号:CN117953351B
公开(公告)日:2024-07-23
申请号:CN202410355666.2
申请日:2024-03-27
Applicant: 之江实验室
IPC: G06V10/82 , G06V10/44 , G06V10/77 , G06N3/092 , G06N3/0895 , G06N3/0985 , G06N3/0464 , G06N3/0455
Abstract: 本发明公开了一种基于模型强化学习的决策方法,包括:获取高维图像数据集;利用自监督学习方法从所述高维图像数据集中学习对应的低维特征;在低维特征空间中,利用Transformer架构构建强化学习的世界模型;利用构建的世界模型向前想象若干步,根据想象轨迹的回报进行前向搜索,得出最优策略。与随机决策相比,这种方法减少决策的随机性,可以提高决策效率,根据智能体现有的决策能力进行决策,克服了样本效率过低、增加了处理动态环境中不确定性的能力,进而达到更优且稳健的策略。
-
公开(公告)号:CN118155854A
公开(公告)日:2024-06-07
申请号:CN202410271436.8
申请日:2024-03-11
Applicant: 之江实验室
IPC: G16H50/50 , G16H10/60 , G16H80/00 , G06N3/0895 , G06N3/092
Abstract: 本发明公开了一种基于孪生模型的康复场景大模型训练方法,包括:获取训练数据集并进行处理,所述训练数据集中包括康复临床数据、孪生模型数据和多学科数据;获取待训练大模型,基于处理后的训练数据集,利用自监督学习方法训练所述待训练模型;对于自监督学习后的大模型,基于处理后的康复临床数据和孪生模型数据,利用监督学习方法和规范化模板进行进一步训练;对于监督学习后的大模型,基于处理后的康复临床数据,利用强化学习方法进行进一步训练大模型,其中强化学习过程中以人工反馈及相关数据作为评分机制,以引导大模型生成用户认可的创意性回答。
-
-
-
-
-