-
公开(公告)号:CN116308663A
公开(公告)日:2023-06-23
申请号:CN202310286199.8
申请日:2023-03-14
Applicant: 中国科学院深圳先进技术研究院
IPC: G06Q30/0601 , G06F16/9535 , G06F16/958 , G06F21/62
Abstract: 本发明公开了一种推荐方法、终端及存储介质,通过将搜索关键词输入基于强化学习框架的推荐模型,得到初始商品推荐列表并向用户终端发送;将初始商品推荐列表作为用户的当前状态信息,通过状态价值函数对当前状态信息计算,得到初始商品推荐列表中各商品关键词的估计值;通过用户终端获取用户针对上述初始商品推荐列表的用户行为信息,并将用户行为信息和初始商品推荐列表作为下一状态信息;通过动作状态价值函数对下一状态信息进行计算,得到各商品关键词的真实值;根据估计值和真实值,确定下一推荐过程的搜索关键词以输入上述推荐模型,得到下一商品推荐列表并向用户终端发送,以实现在利用非用户隐私信息时进行商品推荐时,有效保证商品推荐准确性。
-
公开(公告)号:CN117764662A
公开(公告)日:2024-03-26
申请号:CN202211124335.5
申请日:2022-09-15
Applicant: 中国科学院深圳先进技术研究院
IPC: G06Q30/0601 , G06F16/38 , G06N20/00
Abstract: 本申请提出了一种基于强化学习方法的模型训练方法、关键词推荐方法、终端设备以及计算机可读存储介质。该模型训练方法包括:获取电商平台推荐商品的第一关键词组合;基于电商平台推荐的商品,获取第一用户反馈;将电商平台推荐商品的第一关键词组合及与商品相对应的第一用户反馈,作为强化学习算法模型的输入,对所述强化学习算法模型进行训练,以获得与所述电商平台的推荐算法相匹配的强化学习算法模型,输出相应的关键词组合。本申请通过基于强化学习算法模型的模型训练方法使用强化学习的方法,在动态交互的过程中,实时对模型进行训练,以生成和电商平台的推荐算法最匹配的关键词序列。
-