训练方法、推荐方法及相关产品
    1.
    发明公开

    公开(公告)号:CN119740020A

    公开(公告)日:2025-04-01

    申请号:CN202411440211.7

    申请日:2024-10-15

    Abstract: 本申请涉及深度学习技术领域,尤其公开了一种训练方法、推荐方法及相关产品,该训练方法包括:获取目标对象的初始对象表征和目标物品的初始物品表征;基于目标对象与目标物品的交互关系,以及不同目标物品之间的物品多模态相似关系,更新初始物品表征,得到第一更新物品表征,物品多模态相似关系包括基于目标物品在至少一种预定模态下的表征确定的相似关系;基于交互关系,以及不同目标对象之间的对象多模态相似关系,更新初始对象表征,得到第一更新对象表征,对象多模态相似关系包括基于目标对象在至少一种预定模态下的表征确定的相似关系;基于第一更新物品表征、第一更新对象表征以及物品多模态表征,训练目标模型。

    一种基于问答系统的伪相关反馈的扩展查询方法

    公开(公告)号:CN112307182B

    公开(公告)日:2022-11-04

    申请号:CN202011178079.9

    申请日:2020-10-29

    Inventor: 侯嘉伟 张伟楠

    Abstract: 本发明提出了一种基于问答系统的伪相关反馈的扩展查询方法,借鉴一些问答系统中成熟的语义挖掘模块,比如注意力机制等,使得模型可以真正理解用户的搜索意图,从而根据查询与文档的交互语义信息来选择扩展词项。与传统模型相比,由于加入了语义交互特征,扩展词项选择的效果显著提高。此外,我们还进一步加入基于成对损失函数的神经网络来理解词项的统计学特征,运用词频、逆文档频率等来纠正语义模型可能存在的语义漂移问题。实践证明,我们的方法相比于之前传统的伪相关反馈算法有着更高的排序准确度及更好的鲁棒性,可以被应用于各类搜索场景。

    一种基于模型的多智能体强化学习方法

    公开(公告)号:CN112183288B

    公开(公告)日:2022-10-21

    申请号:CN202011002376.8

    申请日:2020-09-22

    Abstract: 本发明公开了一种基于模型的多智能体强化学习方法,属于多智能体强化学习领域,包括对多智能体环境和策略建模,生成多智能体的虚拟轨迹,利用虚拟轨迹更新多智能体的策略。本发明中各智能体分布式进行决策,分别对多智能体环境与对手智能体策略建模,并利用习得的模型生成虚拟轨迹,能够有效提高多智能体强化学习的采样效率,同时减少智能体交互次数降低设备损坏风险,提高了将分布式多智能体强化学习方法部署在多智能体任务的可行性。

    一种预测机器损坏时间的生存分析方法

    公开(公告)号:CN112507612B

    公开(公告)日:2022-08-02

    申请号:CN202011375405.5

    申请日:2020-11-30

    Inventor: 郑雷 张伟楠

    Abstract: 一种预测机器损坏时间的生存分析方法,把预测机器损坏时间的生存分析问题拆解成分时间片的子问题,将整个时间长度上的时间序列预测问题分解之后大大降低了问题使用神经网络建模长时间序列预测问题的难度,通过使用相同的神经网络来建模每个时间片的风险概率,通过条件概率法则得到最终的生存概率。在不对机器的损坏时间在时间上的分布进行任何假设的前提下,可以结合大数据训练出预测模型。不仅仅可以用在离散时间片的生存概率预测上,在连续时间的生存概率预测上也可以发挥作用。实验证明,通过深度神经网络来训练生存分析模型预测准确率远超传统方法。并且通过并行计算,本算法可以在不增加运算时间的情况下进行长距离的生存概率预测。

    一种四足机器人足部关节电机失力故障强化学习控制方法

    公开(公告)号:CN118170026A

    公开(公告)日:2024-06-11

    申请号:CN202410355007.9

    申请日:2024-03-26

    Abstract: 本发明公开了一种四足机器人足部关节电机失力故障强化学习控制方法,涉及机器人领域。本发明提出两阶段的算法,由探索学习阶段和策略整合阶段组成。探索学习阶段利用先验信息优化探索空间,得到每个子情况的最优解,策略整合阶段将多种故障情况的鲁棒性操作整合在单一模型中。本发明能够在只利用机器人自身感受器的信息输入的前提下,不依赖开发人员机器人运动学领域先验知识的情况,敏捷地开发出可以适应足部关节电机各种程度失力故障的机器人的鲁棒性控制方法,并在功能表现上具备一定的泛化性。

    一种基于模型强化学习的自动超参数调节方法

    公开(公告)号:CN114114911B

    公开(公告)日:2024-04-30

    申请号:CN202111339236.4

    申请日:2021-11-12

    Inventor: 张伟楠 赖行 沈键

    Abstract: 本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。

    一种基于自适应模型的机器人强化学习方法

    公开(公告)号:CN112297012B

    公开(公告)日:2022-05-31

    申请号:CN202011191173.8

    申请日:2020-10-30

    Inventor: 张伟楠 沈键 赵晗

    Abstract: 本发明提出了一种基于自适应模型的机器人强化学习方法,在正常学习一个环境模型的同时,加入模型自适应的步骤,从而可以达到提升虚拟数据准确性的效果。具体来说,当模型是一个神经网络结构,模型自适应通过减小真实数据和虚拟数据在网络隐藏层的特征分布,从而来提升模型在虚拟数据上的准确性。实验证明,在机器人控制等领域,我们的方法相比于之前的基于模型的强化学习方法有着更高的采样效率以及最终性能。

    一种基于数据模仿和课程学习的离线强化学习方法

    公开(公告)号:CN114219085A

    公开(公告)日:2022-03-22

    申请号:CN202111544237.2

    申请日:2021-12-16

    Abstract: 本发明公开了一种基于数据模仿和课程学习的离线强化学习方法,涉及离线强化学习领域。该方法使用当前的学习到的策略,对数据集中的每条轨迹的每个数据点进行标记,标记为当前策略采样出该数据点的概率;对每条轨迹中的数据点排序;以beta分位点的数据作为该条轨迹的标记;无放回选择N条标记最大的轨迹;对选择的轨迹数据进行模仿学习;以先前选择的轨迹的奖励水平以滑动平均的方式更新奖励水平过滤器;过滤数据集中奖励水平低于过滤器值的轨迹。本发明基于模仿学习,通过课程学习的方式,逐步从数据集中选择合适的数据进行学习,从而可以稳定学习到数据集中的最好表现的策略,且可以避免现有技术中存在的误差累积的问题。

Patent Agency Ranking