-
公开(公告)号:CN111104595B
公开(公告)日:2023-04-07
申请号:CN201911297092.3
申请日:2019-12-16
Applicant: 华中科技大学
IPC: G06F16/9535 , G06N3/092 , G06Q30/0201 , G06F18/23 , G06F40/284 , G06F40/216
Abstract: 本发明公开了一种基于文本信息的深度强化学习交互式推荐方法及系统,属于交互式个性化推荐领域,包括:基于文本信息将商品和用户分别转换为商品向量和用户向量,并对用户进行聚类;基于DDPG为每个用户类别建立推荐模型,并建立全局的环境模拟器;对于任意一个推荐模型,在第t轮交互中,构建动作候选集Can(ui,t);策略网络以当前用户的状态st为输入,得到策略向量pt后,根据pt从Can(ui,t)中选出动作向量at;估值网络以pt和st为输入,计算Q值,用于评价pt的优劣;每一轮交互中,环境模拟器计算反馈奖励值,并更新当前用户的状态;反馈奖励值输出至估值网络,矫正估值网络,Q值反向传导至策略网络,调整策略网络,以获得更优的策略向量。本发明能够提高推荐效率和推荐准确度。
-
公开(公告)号:CN111104595A
公开(公告)日:2020-05-05
申请号:CN201911297092.3
申请日:2019-12-16
Applicant: 华中科技大学
IPC: G06F16/9535 , G06F16/35 , G06F16/31 , G06Q30/02 , G06Q30/06
Abstract: 本发明公开了一种基于文本信息的深度强化学习交互式推荐方法及系统,属于交互式个性化推荐领域,包括:基于文本信息将商品和用户分别转换为商品向量和用户向量,并对用户进行聚类;基于DDPG为每个用户类别建立推荐模型,并建立全局的环境模拟器;对于任意一个推荐模型,在第t轮交互中,构建动作候选集Can(ui,t);策略网络以当前用户的状态st为输入,得到策略向量pt后,根据pt从Can(ui,t)中选出动作向量at;估值网络以pt和st为输入,计算Q值,用于评价pt的优劣;每一轮交互中,环境模拟器计算反馈奖励值,并更新当前用户的状态;反馈奖励值输出至估值网络,矫正估值网络,Q值反向传导至策略网络,调整策略网络,以获得更优的策略向量。本发明能够提高推荐效率和推荐准确度。
-