-
公开(公告)号:CN116227579A
公开(公告)日:2023-06-06
申请号:CN202310234827.8
申请日:2023-03-13
Applicant: 东北大学
IPC: G06N3/092
Abstract: 本发明提供一种对离散环境基于值的强化学习训练的优化方法,涉及强化学习技术领域。该方法初始化表格型Q‑learning强化学习框架和训练价值函数后,开始进行训练。首先初始化智能体,与环境交互,初始化记忆缓存栈memory,根据Q(s,a),利用贪婪算法得出状态s对应的动作a,并执行动作a,获得奖励r和下一个状态s’,将(s,a,r)存入内存并迭代s,直到s是终止状态或步数达上限,然后从memory中pop一个(s,a,r),通过判断经历是否特殊来更新T(s,a),继续pop一个(s,a,r),更新T(s,a)和Q(s,a),直到memory为空。重复循环训练过程,直到问题解决。本发明方法能够降低计算量,提高训练速度,降低训练时间,同时保证训练效果。
-
公开(公告)号:CN112491618A
公开(公告)日:2021-03-12
申请号:CN202011361615.9
申请日:2020-11-27
Applicant: 东北大学
Abstract: 本发明提供一种基于四环模型的泛虚拟现实交互管理方法,涉及泛虚拟现实应用技术领域。首先定义交互的一级用户与二级用户;并为一级用户设置最大网格容量、当前网格容量、最大交互容量及当前交互容量四个变量;为每个二级用户设置网格权重、网格优先级、交互优先级及交互权重阈值四个变量;同时,为每个二级用户设置网格容量过载机制、为每个二级用户的每个交互类型设置交互权重变量,并为除交流外的其他交互类型均设置全局冷却时间变量;再设置一个独立管理智能体,作为管理二级用户的舞台督导;并以一级用户为中心建立四环模型;最后在四环模型的基础上,使用实时感应分配算法处理二级用户请求,所有二级用户按照自身完整行为逻辑执行行为。
-
公开(公告)号:CN112491618B
公开(公告)日:2021-08-31
申请号:CN202011361615.9
申请日:2020-11-27
Applicant: 东北大学
Abstract: 本发明提供一种基于四环模型的泛虚拟现实交互管理方法,涉及泛虚拟现实应用技术领域。首先定义交互的一级用户与二级用户;并为一级用户设置最大网格容量、当前网格容量、最大交互容量及当前交互容量四个变量;为每个二级用户设置网格权重、网格优先级、交互优先级及交互权重阈值四个变量;同时,为每个二级用户设置网格容量过载机制、为每个二级用户的每个交互类型设置交互权重变量,并为除交流外的其他交互类型均设置全局冷却时间变量;再设置一个独立管理智能体,作为管理二级用户的舞台督导;并以一级用户为中心建立四环模型;最后在四环模型的基础上,使用实时感应分配算法处理二级用户请求,所有二级用户按照自身完整行为逻辑执行行为。
-
公开(公告)号:CN120022605A
公开(公告)日:2025-05-23
申请号:CN202510102244.9
申请日:2025-01-22
Applicant: 东北大学
IPC: A63F13/67 , A63F13/60 , A63F13/52 , G06T19/20 , G06F18/27 , G06F18/213 , G06N3/006 , G06N3/045 , G06N3/092
Abstract: 本发明提供一种基于好奇心与课程式强化学习的迷宫环境探索方法,涉及深度强化学习技术领域。该方法具体包括:构建迷宫游戏环境,初始化迷宫游戏环境的环境参数,构建并训练基于好奇心与课程式强化学习的课程学习框架;其中所述基于好奇心与课程式强化学习的课程学习框架包括:教师智能体和学生智能体;构建好奇心模块,用于生成学生智能体的内在奖励;基于好奇心与课程式强化学习的课程学习框架和好奇心模块,采用A2C算法训练学生智能体,得到训练好的学生智能体,并将训练好的学生智能体用于执行迷宫探索任务。本发明能够提高智能体稀疏奖励场景下对环境的探索能力和学习效率,进而帮助智能体对在迷宫环境中进行更有效地探索。
-
公开(公告)号:CN119783044A
公开(公告)日:2025-04-08
申请号:CN202510272048.6
申请日:2025-03-10
Applicant: 东北大学
IPC: G06F18/25 , G06F18/2415 , G06F18/211 , G06N3/0455 , G06N3/0464 , G06Q30/0601 , G06F16/9535 , G06F123/02
Abstract: 本发明提供一种基于多模态特征融合的序列推荐方法,涉及个性化推荐技术领域。该方法首先根据用户的不同模态交互记录提取多模态特征;针对不同模态采用不同的特征提取方法;然后采用多模态融合模块进行多模态特征融合与学习;构建多模态融合序列推荐模型进行序列推荐;该方法借助注意力掩码机制让各个模态既能关注自身模态内的信息,又能实现模态间的信息交互,有效保留了文本和图像特征中丰富的原始信息。本发明方法解决了传统多模态推荐模型在特征融合时存在的混乱无序问题。同时,改善了现有技术中难以平衡ID特征与多模态特征学习的状况,并且增强了模型在面对长尾项目和冷启动场景时的推荐能力。
-
-
-
-