一种基于问答系统的伪相关反馈的扩展查询方法

    公开(公告)号:CN112307182B

    公开(公告)日:2022-11-04

    申请号:CN202011178079.9

    申请日:2020-10-29

    Inventor: 侯嘉伟 张伟楠

    Abstract: 本发明提出了一种基于问答系统的伪相关反馈的扩展查询方法,借鉴一些问答系统中成熟的语义挖掘模块,比如注意力机制等,使得模型可以真正理解用户的搜索意图,从而根据查询与文档的交互语义信息来选择扩展词项。与传统模型相比,由于加入了语义交互特征,扩展词项选择的效果显著提高。此外,我们还进一步加入基于成对损失函数的神经网络来理解词项的统计学特征,运用词频、逆文档频率等来纠正语义模型可能存在的语义漂移问题。实践证明,我们的方法相比于之前传统的伪相关反馈算法有着更高的排序准确度及更好的鲁棒性,可以被应用于各类搜索场景。

    一种基于模型的多智能体强化学习方法

    公开(公告)号:CN112183288B

    公开(公告)日:2022-10-21

    申请号:CN202011002376.8

    申请日:2020-09-22

    Abstract: 本发明公开了一种基于模型的多智能体强化学习方法,属于多智能体强化学习领域,包括对多智能体环境和策略建模,生成多智能体的虚拟轨迹,利用虚拟轨迹更新多智能体的策略。本发明中各智能体分布式进行决策,分别对多智能体环境与对手智能体策略建模,并利用习得的模型生成虚拟轨迹,能够有效提高多智能体强化学习的采样效率,同时减少智能体交互次数降低设备损坏风险,提高了将分布式多智能体强化学习方法部署在多智能体任务的可行性。

    一种预测机器损坏时间的生存分析方法

    公开(公告)号:CN112507612B

    公开(公告)日:2022-08-02

    申请号:CN202011375405.5

    申请日:2020-11-30

    Inventor: 郑雷 张伟楠

    Abstract: 一种预测机器损坏时间的生存分析方法,把预测机器损坏时间的生存分析问题拆解成分时间片的子问题,将整个时间长度上的时间序列预测问题分解之后大大降低了问题使用神经网络建模长时间序列预测问题的难度,通过使用相同的神经网络来建模每个时间片的风险概率,通过条件概率法则得到最终的生存概率。在不对机器的损坏时间在时间上的分布进行任何假设的前提下,可以结合大数据训练出预测模型。不仅仅可以用在离散时间片的生存概率预测上,在连续时间的生存概率预测上也可以发挥作用。实验证明,通过深度神经网络来训练生存分析模型预测准确率远超传统方法。并且通过并行计算,本算法可以在不增加运算时间的情况下进行长距离的生存概率预测。

    一种四足机器人足部关节电机失力故障强化学习控制方法

    公开(公告)号:CN118170026A

    公开(公告)日:2024-06-11

    申请号:CN202410355007.9

    申请日:2024-03-26

    Abstract: 本发明公开了一种四足机器人足部关节电机失力故障强化学习控制方法,涉及机器人领域。本发明提出两阶段的算法,由探索学习阶段和策略整合阶段组成。探索学习阶段利用先验信息优化探索空间,得到每个子情况的最优解,策略整合阶段将多种故障情况的鲁棒性操作整合在单一模型中。本发明能够在只利用机器人自身感受器的信息输入的前提下,不依赖开发人员机器人运动学领域先验知识的情况,敏捷地开发出可以适应足部关节电机各种程度失力故障的机器人的鲁棒性控制方法,并在功能表现上具备一定的泛化性。

    一种基于模型强化学习的自动超参数调节方法

    公开(公告)号:CN114114911B

    公开(公告)日:2024-04-30

    申请号:CN202111339236.4

    申请日:2021-11-12

    Inventor: 张伟楠 赖行 沈键

    Abstract: 本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。

    一种基于自适应模型的机器人强化学习方法

    公开(公告)号:CN112297012B

    公开(公告)日:2022-05-31

    申请号:CN202011191173.8

    申请日:2020-10-30

    Inventor: 张伟楠 沈键 赵晗

    Abstract: 本发明提出了一种基于自适应模型的机器人强化学习方法,在正常学习一个环境模型的同时,加入模型自适应的步骤,从而可以达到提升虚拟数据准确性的效果。具体来说,当模型是一个神经网络结构,模型自适应通过减小真实数据和虚拟数据在网络隐藏层的特征分布,从而来提升模型在虚拟数据上的准确性。实验证明,在机器人控制等领域,我们的方法相比于之前的基于模型的强化学习方法有着更高的采样效率以及最终性能。

    一种基于数据模仿和课程学习的离线强化学习方法

    公开(公告)号:CN114219085A

    公开(公告)日:2022-03-22

    申请号:CN202111544237.2

    申请日:2021-12-16

    Abstract: 本发明公开了一种基于数据模仿和课程学习的离线强化学习方法,涉及离线强化学习领域。该方法使用当前的学习到的策略,对数据集中的每条轨迹的每个数据点进行标记,标记为当前策略采样出该数据点的概率;对每条轨迹中的数据点排序;以beta分位点的数据作为该条轨迹的标记;无放回选择N条标记最大的轨迹;对选择的轨迹数据进行模仿学习;以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器;过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习,通过课程学习的方式,逐步从数据集中选择合适的数据进行学习,从而可以稳定学习到数据集中的最好表现的策略,且可以避免现有技术中存在的误差累积的问题。

    一种基于交叉路口转移计算的交通预测方法

    公开(公告)号:CN112989539A

    公开(公告)日:2021-06-18

    申请号:CN202110373408.3

    申请日:2021-04-07

    Abstract: 本发明公开了一种基于交叉路口转移计算的交通预测方法,涉及交通预测领域,通过包含了路段和路口的地理信息以及路网的拓扑数据的路网属性图学习转移矩阵,根据交通历史数据,通过堆叠的包含了门控时序卷积网络和交叉路口转移图卷积网络的时空特征挖掘模块对未来的交通进行预测。本发明将图卷积神经网络应用到交通预测领域,提供了一种精准的交通预测方法,不仅能够作为政府部门的决策依据,帮助政府实行更科学有效的交通管控,也可以给市民提供更充足的路况信息,帮助驾驶员做出更优的路径选择。

    一种基于双向模型的强化学习方法

    公开(公告)号:CN111950735B

    公开(公告)日:2023-11-17

    申请号:CN202010622636.5

    申请日:2020-06-30

    Inventor: 张伟楠 赖行 沈键

    Abstract: 一种基于双向模型的强化学习方法,用于机器人控制,其特征在于,包括:正向模型、反向模型、正向策略、反向策略,从某真实的状态开始,双向地生成轨迹,在三个阶段不断进行迭代:数据搜集阶段、模型学习阶段、策略优化阶段,直到算法收敛。本发明的有益效果是:双向模型相比于传统正向模型,在生成相同长度的虚拟轨迹的情况下的模型累积误差更小,且在进一步的仿真控制实验中,本发明的方法相比于之前的基于模型方法,无论采样效率还是渐进性能都更加优秀。

Patent Agency Ranking