-
公开(公告)号:CN111260072A
公开(公告)日:2020-06-09
申请号:CN202010018402.X
申请日:2020-01-08
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于生成对抗网络的强化学习探索方法,辅助机器人在物流运输场景中进行探索,涉及强化学习探索方法领域。本发明通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对生成对抗网络的内部奖励,以鼓励探索。本发明生成对抗网络可以与任意强化学习算法结合使用,且不局限于特定的状态空间,可以针对各种维度、各种类型(连续或离散)的状态空间进行密度估计,从而给出内部奖励。实践证明,生成对抗网络的训练频率在远小于强化学习策略更新频率的情况下效果更为优秀,这意味着本发明相较于不辅助探索的强化学习算法的额外计算开销可以忽略不计,可以用于物流运输等强化学习应用场景中辅助机器人进行探索。
-
公开(公告)号:CN119740020A
公开(公告)日:2025-04-01
申请号:CN202411440211.7
申请日:2024-10-15
Applicant: 行吟信息科技(上海)有限公司 , 上海交通大学
IPC: G06F18/214 , G06F18/22 , G06Q30/0601
Abstract: 本申请涉及深度学习技术领域,尤其公开了一种训练方法、推荐方法及相关产品,该训练方法包括:获取目标对象的初始对象表征和目标物品的初始物品表征;基于目标对象与目标物品的交互关系,以及不同目标物品之间的物品多模态相似关系,更新初始物品表征,得到第一更新物品表征,物品多模态相似关系包括基于目标物品在至少一种预定模态下的表征确定的相似关系;基于交互关系,以及不同目标对象之间的对象多模态相似关系,更新初始对象表征,得到第一更新对象表征,对象多模态相似关系包括基于目标对象在至少一种预定模态下的表征确定的相似关系;基于第一更新物品表征、第一更新对象表征以及物品多模态表征,训练目标模型。
-
公开(公告)号:CN119441606A
公开(公告)日:2025-02-14
申请号:CN202411495232.9
申请日:2024-10-24
Applicant: 行吟信息科技(上海)有限公司 , 上海交通大学
IPC: G06F16/9535 , G06N20/00 , G06F18/213 , G06F18/23213 , G06N3/0499 , G06N3/0985
Abstract: 本申请涉及一种模型训练方法、物品推荐方法、装置、服务器和存储介质。所述模型训练方法包括:获取训练样本;所述训练样本包括样本用户和对应的样本物品;基于所述样本物品的模态特征,获取所述样本物品的离散化特征向量;所述模态特征包括多个特征段,所述离散化特征向量包括所述多个特征段对应的多个单元向量;至少根据所述样本用户的表征向量、所述离散化特征向量和目标模型,得到所述样本用户的目标表征和所述样本物品的目标表征;利用所述样本用户的目标表征和所述样本物品的目标表征,训练所述目标模型。采用本方法能够提升推荐结果准确度。
-
公开(公告)号:CN112651244B
公开(公告)日:2022-12-09
申请号:CN202011566711.7
申请日:2020-12-25
Applicant: 上海交通大学
IPC: G06F40/295 , G06F40/216 , G06F40/242 , G06F16/33 , G06F8/30
Abstract: 本发明提供了一种基于论文摘要QA的TopK实体抽取方法与系统,该方法包括数据获取与处理步骤:从数据库中获取相关领域的所有论文,以及从dbpedia官网获取实体库,并整合数据库中的实体,获得dbace实体集;训练相似度模型步骤:进行文本相似度模型训练;构建ES索引步骤:将dbace实体集中的每个实体经过stem处理;检索实体步骤:将论文摘要QA句子送入ES中进行查询;实体特征计算步骤:计算实体列表中的实体与其论文标题、论文摘要和论文摘要QA的相关分数,并计算实体长度和复杂度;训练LTR模型步骤:选取部分文章的实体列表进行人工标注;结果可视化步骤:将单篇论文各个论文摘要QA下的实体列表进行lambdaRank排序。本发明能够使得论文知识图谱构建变得快速、简单、可靠。
-
公开(公告)号:CN113239634B
公开(公告)日:2022-11-04
申请号:CN202110654854.1
申请日:2021-06-11
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于鲁棒模仿学习的模拟器建模方法,涉及强化学习领域,包括以下步骤:从策略分布中采样出训练策略集合Π和测试策略集合Π′;令训练策略集合Π的策略π与真实环境p*进行交互,以获得真实数据集合Bπ={(s,a,s′)~(πp*);每k步进行一次策略筛选;令策略π与学习到的模拟器进行交互,并计算价值差异VD,以衡量模拟器在策略π下的表现;选取其中表现最差的∈%策略构成集合Πc,其对应的数据集记为Bc;从Bc中采样数据,并利用Πc中的策略与当前模拟器交互以收集数据Dp,用以优化生成对抗模仿学习中的判别器Dω,以及用以优化生成对抗模仿学习中的生成器重复上述步骤直到重复次数达到事先设定的阈值。该方法使得学到的模型具有更强的鲁棒性。
-
公开(公告)号:CN112989539B
公开(公告)日:2022-08-09
申请号:CN202110373408.3
申请日:2021-04-07
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于交叉路口转移计算的交通预测方法,涉及交通预测领域,通过包含了路段和路口的地理信息以及路网的拓扑数据的路网属性图学习转移矩阵,根据交通历史数据,通过堆叠的包含了门控时序卷积网络和交叉路口转移图卷积网络的时空特征挖掘模块对未来的交通进行预测。本发明将图卷积神经网络应用到交通预测领域,提供了一种精准的交通预测方法,不仅能够作为政府部门的决策依据,帮助政府实行更科学有效的交通管控,也可以给市民提供更充足的路况信息,帮助驾驶员做出更优的路径选择。
-
公开(公告)号:CN112307182A
公开(公告)日:2021-02-02
申请号:CN202011178079.9
申请日:2020-10-29
Applicant: 上海交通大学
IPC: G06F16/332 , G06F40/194 , G06F40/216 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明提出了一种基于问答系统的伪相关反馈的扩展查询方法,借鉴一些问答系统中成熟的语义挖掘模块,比如注意力机制等,使得模型可以真正理解用户的搜索意图,从而根据查询与文档的交互语义信息来选择扩展词项。与传统模型相比,由于加入了语义交互特征,扩展词项选择的效果显著提高。此外,我们还进一步加入基于成对损失函数的神经网络来理解词项的统计学特征,运用词频、逆文档频率等来纠正语义模型可能存在的语义漂移问题。实践证明,我们的方法相比于之前传统的伪相关反馈算法有着更高的排序准确度及更好的鲁棒性,可以被应用于各类搜索场景。
-
-
-
-
-
-