-
公开(公告)号:CN116150476A
公开(公告)日:2023-05-23
申请号:CN202211524991.4
申请日:2022-11-30
Applicant: 支付宝(杭州)信息技术有限公司 , 华中科技大学
IPC: G06F16/9535 , G06N3/042 , G06N3/044 , G06N3/0442 , G06N3/0499 , G06N3/0455 , G06N3/092
Abstract: 本说明书的实施例提供了一种用于对话推荐物品的交互方法、模型训练方法和装置。在该用于对话推荐物品的交互方法中,获取目标用户的对话历史和候选信息集,对话历史包括至少一轮对话中的历史行为和目标用户针对历史行为的反馈;根据对话历史和候选信息集确定目标用户的当前状态编码;将当前状态编码提供给行为预测模型,得到预测行为,预测行为包括对目标用户询问属性或推荐物品;将当前状态编码提供给候选信息确定模型,得到与预测行为相匹配的目标候选信息,目标候选信息包括从与预测行为相匹配的候选属性信息集中确定的与目标用户匹配的候选属性信息或从候选物品信息集中确定的候选物品信息。
-
公开(公告)号:CN117056476A
公开(公告)日:2023-11-14
申请号:CN202310928830.X
申请日:2023-07-26
Applicant: 中国平安财产保险股份有限公司 , 华中科技大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/35 , G06N5/022 , G06N3/0464 , G06N3/047 , G06N3/08
Abstract: 本发明公开了一种对话推荐方法,包括以下步骤:1)获取对话历史的话语信息;2)根据对话历史的话语信息获取对话历史的相应的实体与语义表征;3)构建树结构存储对话历史当中的实体信息;4)在将预测的实体加入推理树后,根据预测的实体所在的推理分支和在该分支中提到相关实体的历史语料生成与预测的实体高度相关的语料,作为对话回复推荐。本发明通过构造一个推理树结构来存储对话历史当中的实体信息,维持了语句间的因果联系,基于该推理树对历史信息进行建模,能够更好地判断用户感兴趣的实体,从而达到更好的推荐效果与生成效果。
-
公开(公告)号:CN118798139A
公开(公告)日:2024-10-18
申请号:CN202410929860.7
申请日:2024-07-11
Applicant: 华中科技大学 , 中国平安财产保险股份有限公司
IPC: G06F40/166 , G06F16/35 , G06N3/047 , G06N3/048 , G06N3/092
Abstract: 本发明公开了一种基于细粒度反馈强化学习的可控文本生成方法,包括以下步骤:1)针对可控文本生成任务,初始化一个文本生成的策略大模型m;初始化一个作为参考模型m_ref的策略模型副本,一个属性记分器s;还初始化了一个数据池D,并准备了一个前缀语料库供探索;2)探索;给定文本生成的前缀x,使用当前策略模型生成后续文本;3)分段与加噪;对D内的奖励分段,将噪声注入到每个奖励中;4)模型学习;5)重复步骤2)至4)使用更新的模型进行探索,直到训练达到最大次数;6)根据前缀,使用学习后的模型生成后续文本,获得最终的生成文本。本发明设计了细粒度的奖励,可以对模型提供更加密集的反馈。
-
-