-
公开(公告)号:CN119250156B
公开(公告)日:2025-03-21
申请号:CN202411758866.9
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0985 , G06F18/22
Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。
-
公开(公告)号:CN119250156A
公开(公告)日:2025-01-03
申请号:CN202411758866.9
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0985 , G06F18/22
Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。
-
公开(公告)号:CN107577656A
公开(公告)日:2018-01-12
申请号:CN201710565733.3
申请日:2017-07-12
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明涉及文本隐含语义激活方法及系统,所述激活方法包括:获取待测文本的待测词项信息;根据文本集合知识库及所述待测文本的待测词项信息,确定所述文本集合知识库的词表中每个参考词项的激活系数;所述文本集合知识库包括多个参考词项共同构成的词表、对应各参考词项的参考词向量及参考词频;根据各激活系数,选取对应的参考词项构成待测文本的隐含语义集合;将所述隐含语义集合添加到所述待测文本中进行语义扩充。从而能够准确确定待测文本的隐含信息,准确度高。
-
公开(公告)号:CN107577656B
公开(公告)日:2020-02-14
申请号:CN201710565733.3
申请日:2017-07-12
Applicant: 中国科学院自动化研究所
IPC: G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明涉及文本隐含语义激活方法及系统,所述激活方法包括:获取待测文本的待测词项信息;根据文本集合知识库及所述待测文本的待测词项信息,确定所述文本集合知识库的词表中每个参考词项的激活系数;所述文本集合知识库包括多个参考词项共同构成的词表、对应各参考词项的参考词向量及参考词频;根据各激活系数,选取对应的参考词项构成待测文本的隐含语义集合;将所述隐含语义集合添加到所述待测文本中进行语义扩充。从而能够准确确定待测文本的隐含信息,准确度高。
-
公开(公告)号:CN118821950A
公开(公告)日:2024-10-22
申请号:CN202411073811.4
申请日:2024-08-07
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于多智能体的话题建模和观点演化仿真方法、电子设备以及存储介质,可以应用于数据挖掘技术领域。该方法包括:利用智能体的行为集和观点集以及交互集构建观点演化模型,并通过对观点演化模型的运算得到针对目标话题的观点优化目标;基于智能体的观点集以及交互集,通过引入固执系数和逆火系数重构针对目标话题的观点动力学方程;基于观点优化目标,利用观点动力学方程生成智能体的行为信息和交互信息,并利用所生成信息更新智能体的行为集和交互集;利用更新后的智能体的行为集和交互集,通过期望最大化算法对智能体的观点集进行参数最大化操作,得到更新后的智能体的观点集。
-
公开(公告)号:CN116882493A
公开(公告)日:2023-10-13
申请号:CN202310788771.0
申请日:2023-06-29
Applicant: 中国科学院自动化研究所
IPC: G06N5/02 , G06N3/096 , G06N3/0464 , G06N3/042 , G06N3/09
Abstract: 本发明提供一种时序知识图谱补全方法、装置、电子设备和存储介质,方法包括:获取四元组形式的时序知识图谱,以及时序知识图谱对应的历史信息,时序知识图谱以预设比例划分为训练集、验证集、测试集;基于训练集,进行有监督学习得到教师补全模型;基于验证集,对教师补全模型和学生补全模型进行知识蒸馏学习,并对学生补全模型进行有监督学习,得到当前时刻的补全模型;基于补全模型,应用历史信息确定测试集的预测结果;基于预测结果,对测试集进行图谱补全。本发明提供的方法、装置,提升了补全模型的可塑性,实现了从新的事件信息中完成准确的图谱补全的功能,同时在没有新的事件信息时,仍能稳定的进行图谱补全,提升了补全模型的稳定性。
-
-
-
-
-