-
公开(公告)号:CN118095435A
公开(公告)日:2024-05-28
申请号:CN202410257510.0
申请日:2024-03-06
Applicant: 上海交通大学 , 中国太平洋保险(集团)股份有限公司
Abstract: 本发明公开了一种基于大语言模型分步推理的检索增强决策控制器,涉及大语言模型控制器领域,大语言模型模块利用预训练的大语言模型,基于当前观测及历史轨迹信息进行推理,并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤,预测最终的动作输出;推理标注模块为外部记忆中的每个示例步骤提供推理过程;推理检索模块基于外部记忆中所有步骤的标注推理内容,利用分步推理检索方法,为每个时间步选择相关示例;增强决策模块对检索出的专家步骤样例进行处理,并将处理后的专家步骤样例作为示例。本发明在决策任务的每一步根据当前状态某种形式的抽象选取合适的专家示例,检索得到的专家示例与决策状态更相关、更能提升决策性能。
-
公开(公告)号:CN113239629B
公开(公告)日:2023-06-16
申请号:CN202110618757.7
申请日:2021-06-03
Applicant: 上海交通大学
IPC: G06F30/27 , G06N3/006 , G06N3/0442 , G06N3/0455 , G06N3/084 , G06N3/092 , G06F111/08
Abstract: 本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法,涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中,增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间,鼓励种群中的智能体沿着不同的轨迹方向进行探索,然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现,在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法,并且可以生成多样的高回报策略,可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。
-
公开(公告)号:CN115953215A
公开(公告)日:2023-04-11
申请号:CN202211533857.0
申请日:2022-12-01
Applicant: 上海交通大学
IPC: G06Q30/0601 , G06F16/9535 , G06F18/22 , G06F18/21 , G06N3/04
Abstract: 本发明公开了一种基于时间和图结构的搜索式推荐方法,涉及推荐系统领域,包括以下步骤:收集互联网平台用户行为历史数据,使用内积神经网络对用户和历史数据中的物品进行编码,并计算用户和物品的嵌入向量,对历史物品进行建图、采样和学习,将物品的嵌入向量输入模型中,基于用户和物品特征,在用户历史数据中检索相似物品和相似用户,从相似用户的历史数据中检索目标物品的相似物品;将检索得到的用户历史序列输入时间感知模型中得到隐状态序列,将隐状态序列输入多层感知机中进行预测并进行反向传播,将训练完毕的算法模型应用于推荐算法中。本发明提出的推荐方法,能够在在线环境下处理大规模的用户历史序列,能有效提升推荐效率和表现。
-
公开(公告)号:CN115222043A
公开(公告)日:2022-10-21
申请号:CN202210826945.3
申请日:2022-07-13
Applicant: 上海交通大学
Abstract: 本发明公开了一种可迁移的基于示教和策略解耦的行为决策和状态规划学习算法,涉及强化学习领域,包括决策模块,规划模块和决策规划判别模块,所述规划模块基于环境的状态预测目标状态,并交由所述决策模块执行,利用监督学习;所述决策模块又称为逆环境模块,基于环境的状态和所述规划模块预测的目标状态输出决策信号,即动作;所述决策规划判别模块基于环境中采样的状态数据与专家示教数据进行对抗学习,给出用于所述规划模块学习的奖励信号。本发明提高了泛化性。
-
公开(公告)号:CN114114911A
公开(公告)日:2022-03-01
申请号:CN202111339236.4
申请日:2021-11-12
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于模型强化学习的自动超参数调节方法,涉及强化学习方法领域。本发明提出将超参数的调节过程建模为一个新的马尔科夫决策过程,再使用强化学习的方法训练一个超参数控制器。该超参数控制器可以根据当前训练阶段的各种状态,比如模型误差,策略回报奖励等等来自动选择动作以调节相应的超参数。通过超参数控制器调节的基于模型算法的性能远远超过了原始基于模型算法的性能,且可以省去调节超参数所花费的人工成本,可以被运用于自动控制等领域。
-
公开(公告)号:CN113239629A
公开(公告)日:2021-08-10
申请号:CN202110618757.7
申请日:2021-06-03
Applicant: 上海交通大学
IPC: G06F30/27 , G06N3/00 , G06N3/04 , G06N3/08 , G06F111/08
Abstract: 本发明公开了一种轨迹空间行列式点过程的强化学习探索和利用的方法,涉及质量和多样性强化学习领域。在质量和多样性强化学习框架中,增加强化学习中智能体的探索能力和生成多样化的智能体策略。本发明首先通过变分自编码器和对比学习学习到一个有意义的轨迹编码空间,鼓励种群中的智能体沿着不同的轨迹方向进行探索,然后基于行列式点过程不断从中筛选出高回报和多样性的策略并变异其他策略的探索方向。本发明可以在各种维度、各种类型(连续或离散)的状态空间下提升智能体的表现,在需要强探索能力的环境中的收敛速度和表现优于框架下的其他方法,并且可以生成多样的高回报策略,可以用于机器人导航等强化学习应用场景中辅助机器人进行探索。
-
公开(公告)号:CN112651244A
公开(公告)日:2021-04-13
申请号:CN202011566711.7
申请日:2020-12-25
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/33 , G06F8/30
Abstract: 本发明提供了一种基于论文摘要QA的TopK实体抽取方法与系统,该方法包括数据获取与处理步骤:从数据库中获取相关领域的所有论文,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;训练相似度模型步骤:进行文本相似度模型训练;构建ES索引步骤:将dbace实体集中的每个实体经过stem处理;检索实体步骤:将论文摘要QA句子送入ES中进行查询;实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,并计算实体长度和复杂度;训练LTR模型步骤:选取部分文章的实体列表进行人工标注;结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序。本发明能够使得论文知识图谱构建变得快速、简单、可靠。
-
公开(公告)号:CN112612951A
公开(公告)日:2021-04-06
申请号:CN202011491942.6
申请日:2020-12-17
Applicant: 上海交通大学
IPC: G06F16/9535 , G06N20/00
Abstract: 本发明公开了一种面向收益提升的无偏学习排序方法,基于有偏的用户点击日志数据,直接优化一个无偏的效益指标。首先学习了一个位置敏感的点击率预估模型,建模不同特征的查询‑文档对在不同位置下的点击率,得到的用户效益的无偏估计,基于lambdaloss的学习框架提出了一个基于lambdaloss的目标函数来直接优化用户效益的无偏估计,通过学习一个打分函数可以将测试阶段的复杂度降低到O(N)。理论分析证明该目标函数可以优化目标效益的一个有效上界。本发明在三个公开数据集上都证明了该方法的有效性,可以被用于列表推荐,网页搜索,广告系统等场景。
-
公开(公告)号:CN112507612A
公开(公告)日:2021-03-16
申请号:CN202011375405.5
申请日:2020-11-30
Applicant: 上海交通大学
IPC: G06F30/27 , G06N3/04 , G06F119/12
Abstract: 一种预测机器损坏时间的生存分析方法,把预测机器损坏时间的生存分析问题拆解成分时间片的子问题,将整个时间长度上的时间序列预测问题分解之后大大降低了问题使用神经网络建模长时间序列预测问题的难度,通过使用相同的神经网络来建模每个时间片的风险概率,通过条件概率法则得到最终的生存概率。在不对机器的损坏时间在时间上的分布进行任何假设的前提下,可以结合大数据训练出预测模型。不仅仅可以用在离散时间片的生存概率预测上,在连续时间的生存概率预测上也可以发挥作用。实验证明,通过深度神经网络来训练生存分析模型预测准确率远超传统方法。并且通过并行计算,本算法可以在不增加运算时间的情况下进行长距离的生存概率预测。
-
公开(公告)号:CN112297012A
公开(公告)日:2021-02-02
申请号:CN202011191173.8
申请日:2020-10-30
Applicant: 上海交通大学
Abstract: 本发明提出了一种基于自适应模型的机器人强化学习方法,在正常学习一个环境模型的同时,加入模型自适应的步骤,从而可以达到提升虚拟数据准确性的效果。具体来说,当模型是一个神经网络结构,模型自适应通过减小真实数据和虚拟数据在网络隐藏层的特征分布,从而来提升模型在虚拟数据上的准确性。实验证明,在机器人控制等领域,我们的方法相比于之前的基于模型的强化学习方法有着更高的采样效率以及最终性能。
-
-
-
-
-
-
-
-
-