一种基于时间和图结构的搜索式推荐方法

    公开(公告)号:CN115953215A

    公开(公告)日:2023-04-11

    申请号:CN202211533857.0

    申请日:2022-12-01

    Abstract: 本发明公开了一种基于时间和图结构的搜索式推荐方法,涉及推荐系统领域,包括以下步骤:收集互联网平台用户行为历史数据,使用内积神经网络对用户和历史数据中的物品进行编码,并计算用户和物品的嵌入向量,对历史物品进行建图、采样和学习,将物品的嵌入向量输入模型中,基于用户和物品特征,在用户历史数据中检索相似物品和相似用户,从相似用户的历史数据中检索目标物品的相似物品;将检索得到的用户历史序列输入时间感知模型中得到隐状态序列,将隐状态序列输入多层感知机中进行预测并进行反向传播,将训练完毕的算法模型应用于推荐算法中。本发明提出的推荐方法,能够在在线环境下处理大规模的用户历史序列,能有效提升推荐效率和表现。

    一种可迁移的基于示教和策略解耦的行为决策和状态规划学习算法

    公开(公告)号:CN115222043A

    公开(公告)日:2022-10-21

    申请号:CN202210826945.3

    申请日:2022-07-13

    Abstract: 本发明公开了一种可迁移的基于示教和策略解耦的行为决策和状态规划学习算法,涉及强化学习领域,包括决策模块,规划模块和决策规划判别模块,所述规划模块基于环境的状态预测目标状态,并交由所述决策模块执行,利用监督学习;所述决策模块又称为逆环境模块,基于环境的状态和所述规划模块预测的目标状态输出决策信号,即动作;所述决策规划判别模块基于环境中采样的状态数据与专家示教数据进行对抗学习,给出用于所述规划模块学习的奖励信号。本发明提高了泛化性。

    一种基于模型强化学习的自动超参数调节方法

    公开(公告)号:CN114114911A

    公开(公告)日:2022-03-01

    申请号:CN202111339236.4

    申请日:2021-11-12

    Inventor: 张伟楠 赖行 沈键

    Abstract: 本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。

    一种轨迹空间行列式点过程的强化学习探索和利用的方法

    公开(公告)号:CN113239629A

    公开(公告)日:2021-08-10

    申请号:CN202110618757.7

    申请日:2021-06-03

    Inventor: 缪佳宇 张伟楠

    Abstract: 本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法,涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中,增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间,鼓励种群中的智能体沿着不同的轨迹方向进行探索,然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现,在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法,并且可以生成多样的高回报策略,可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。

    一种基于论文摘要QA的TopK实体抽取方法与系统

    公开(公告)号:CN112651244A

    公开(公告)日:2021-04-13

    申请号:CN202011566711.7

    申请日:2020-12-25

    Abstract: 本发明提供了一种基于论文摘要QA的TopK实体抽取方法与系统,该方法包括数据获取与处理步骤:从数据库中获取相关领域的所有论文,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;训练相似度模型步骤:进行文本相似度模型训练;构建ES索引步骤:将dbace实体集中的每个实体经过stem处理;检索实体步骤:将论文摘要QA句子送入ES中进行查询;实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,并计算实体长度和复杂度;训练LTR模型步骤:选取部分文章的实体列表进行人工标注;结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序。本发明能够使得论文知识图谱构建变得快速、简单、可靠。

    一种面向收益提升的无偏学习排序方法

    公开(公告)号:CN112612951A

    公开(公告)日:2021-04-06

    申请号:CN202011491942.6

    申请日:2020-12-17

    Abstract: 本发明公开了一种面向收益提升的无偏学习排序方法,基于有偏的用户点击日志数据,直接优化一个无偏的效益指标。首先学习了一个位置敏感的点击率预估模型,建模不同特征的查询‑文档对在不同位置下的点击率,得到的用户效益的无偏估计,基于lambdaloss的学习框架提出了一个基于lambdaloss的目标函数来直接优化用户效益的无偏估计,通过学习一个打分函数可以将测试阶段的复杂度降低到O(N)。理论分析证明该目标函数可以优化目标效益的一个有效上界。本发明在三个公开数据集上都证明了该方法的有效性,可以被用于列表推荐,网页搜索,广告系统等场景。

    一种预测机器损坏时间的生存分析方法

    公开(公告)号:CN112507612A

    公开(公告)日:2021-03-16

    申请号:CN202011375405.5

    申请日:2020-11-30

    Inventor: 郑雷 张伟楠

    Abstract: 一种预测机器损坏时间的生存分析方法,把预测机器损坏时间的生存分析问题拆解成分时间片的子问题,将整个时间长度上的时间序列预测问题分解之后大大降低了问题使用神经网络建模长时间序列预测问题的难度,通过使用相同的神经网络来建模每个时间片的风险概率,通过条件概率法则得到最终的生存概率。在不对机器的损坏时间在时间上的分布进行任何假设的前提下,可以结合大数据训练出预测模型。不仅仅可以用在离散时间片的生存概率预测上,在连续时间的生存概率预测上也可以发挥作用。实验证明,通过深度神经网络来训练生存分析模型预测准确率远超传统方法。并且通过并行计算,本算法可以在不增加运算时间的情况下进行长距离的生存概率预测。

    一种基于自适应模型的机器人强化学习方法

    公开(公告)号:CN112297012A

    公开(公告)日:2021-02-02

    申请号:CN202011191173.8

    申请日:2020-10-30

    Inventor: 张伟楠 沈键 赵晗

    Abstract: 本发明提出了一种基于自适应模型的机器人强化学习方法,在正常学习一个环境模型的同时,加入模型自适应的步骤,从而可以达到提升虚拟数据准确性的效果。具体来说,当模型是一个神经网络结构,模型自适应通过减小真实数据和虚拟数据在网络隐藏层的特征分布,从而来提升模型在虚拟数据上的准确性。实验证明,在机器人控制等领域,我们的方法相比于之前的基于模型的强化学习方法有着更高的采样效率以及最终性能。

    一种基于混合行为空间的强化学习方法

    公开(公告)号:CN112183762A

    公开(公告)日:2021-01-05

    申请号:CN202010965008.7

    申请日:2020-09-15

    Inventor: 粟锐 张伟楠 俞勇

    Abstract: 本发明公开了一种基于混合行为空间的强化学习方法,涉及强化学习领域,由多个共同作用输出结构化的行为的并行Actor网络和一个指导Actor网络训练的Critic网络组成。Actor网络包括状态编码网络、离散Actor网络、连续参数Actor网络,状态编码网络对状态进行编码,输入到离散Actor网络和连续参数Actor网络,离散Actor网络用于产生离散动作,连续参数Actor网络用于产生离散动作对应的连续化参数。本发明可以处理既有连续化动作也有离散动作的混合行为空间,并且可以拓展到所有有层次化结构的行为空间中。本发明能取得比之前对于混合行为空间处理方法更优的强化学习结果,既不损失行为的精确度,也通过mask操作避免了过参数化的问题。

    一种基于双向模型的强化学习方法

    公开(公告)号:CN111950735A

    公开(公告)日:2020-11-17

    申请号:CN202010622636.5

    申请日:2020-06-30

    Inventor: 张伟楠 赖行 沈键

    Abstract: 一种基于双向模型的强化学习方法,用于机器人控制,其特征在于,包括:正向模型、反向模型、正向策略、反向策略,从某真实的状态开始,双向地生成轨迹,在三个阶段不断进行迭代:数据搜集阶段、模型学习阶段、策略优化阶段,直到算法收敛。本发明的有益效果是:双向模型相比于传统正向模型,在生成相同长度的虚拟轨迹的情况下的模型累积误差更小,且在进一步的仿真控制实验中,本发明的方法相比于之前的基于模型方法,无论采样效率还是渐进性能都更加优秀。

Patent Agency Ranking