用于数据的有效使用以用于个性化的系统

    公开(公告)号:CN113994359A

    公开(公告)日:2022-01-28

    申请号:CN202080043510.0

    申请日:2020-04-26

    Abstract: 使用基于先前“日志记录”策略而收集的历史数据来执行新“目标”策略的离策略评估,以估计该目标策略的性能。可以使用估计器,其中基于质量的估计器或质量不可知估计器被用于对历史数据中的观察到的奖励与由目标策略生成的估计出的奖励之间的差异进行加权。质量不可知估计器可以用于根据阈值来评估重要性权重。在这样的示例中,当重要性权重超过阈值时,质量不可知估计器在阈值处剪裁重要性权重,从而提供与奖励预测器的质量无关的固定上限。在其他示例中,使用了基于质量的估计器,其中上限结合了奖励预测器的质量,以便修改由估计器使用的重要性权重。

Patent Agency Ranking