-
公开(公告)号:CN119808879A
公开(公告)日:2025-04-11
申请号:CN202510004388.0
申请日:2025-01-02
Applicant: 大连理工大学
IPC: G06N3/092 , G06F18/26 , G06F16/9535 , G06F16/9536
Abstract: 本发明公开了一种基于用户满意度的推荐系统优化方法,属于推荐系统技术领域。本发明将用户的决策过程建模为马尔可夫决策过程,并假设用户在与推荐系统交互的过程中始终试图最大化满意度。基于这一假设,用户的交互数据集可视为专家行为数据。随后,本发明提出了一种基于逆强化学习的方法来训练得到用户满意度模型。最后,本发明设计了一项辅助对齐任务使得推荐系统在推荐的过程中最大化用户满意度,该任务可以与任何序列推荐模型相结合,实现推荐系统与用户满意度的对齐。本发明具有通用性强、适用场景广等优点,可广泛应用于新闻、音乐、电商等多种推荐场景。