-
公开(公告)号:CN112307182B
公开(公告)日:2022-11-04
申请号:CN202011178079.9
申请日:2020-10-29
Applicant: 上海交通大学
IPC: G06F16/332 , G06F40/194 , G06F40/216 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明提出了一种基于问答系统的伪相关反馈的扩展查询方法,借鉴一些问答系统中成熟的语义挖掘模块,比如注意力机制等,使得模型可以真正理解用户的搜索意图,从而根据查询与文档的交互语义信息来选择扩展词项。与传统模型相比,由于加入了语义交互特征,扩展词项选择的效果显著提高。此外,我们还进一步加入基于成对损失函数的神经网络来理解词项的统计学特征,运用词频、逆文档频率等来纠正语义模型可能存在的语义漂移问题。实践证明,我们的方法相比于之前传统的伪相关反馈算法有着更高的排序准确度及更好的鲁棒性,可以被应用于各类搜索场景。
-
公开(公告)号:CN112612951B
公开(公告)日:2022-07-01
申请号:CN202011491942.6
申请日:2020-12-17
Applicant: 上海交通大学
IPC: G06F16/9535 , G06N20/00
Abstract: 本发明公开了一种面向收益提升的无偏学习排序方法,基于有偏的用户点击日志数据,直接优化一个无偏的效益指标。首先学习了一个位置敏感的点击率预估模型,建模不同特征的查询‑文档对在不同位置下的点击率,得到的用户效益的无偏估计,基于lambdaloss的学习框架提出了一个基于lambdaloss的目标函数来直接优化用户效益的无偏估计,通过学习一个打分函数可以将测试阶段的复杂度降低到O(N)。理论分析证明该目标函数可以优化目标效益的一个有效上界。本发明在三个公开数据集上都证明了该方法的有效性,可以被用于列表推荐,网页搜索,广告系统等场景。
-
公开(公告)号:CN112307182A
公开(公告)日:2021-02-02
申请号:CN202011178079.9
申请日:2020-10-29
Applicant: 上海交通大学
IPC: G06F16/332 , G06F40/194 , G06F40/216 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明提出了一种基于问答系统的伪相关反馈的扩展查询方法,借鉴一些问答系统中成熟的语义挖掘模块,比如注意力机制等,使得模型可以真正理解用户的搜索意图,从而根据查询与文档的交互语义信息来选择扩展词项。与传统模型相比,由于加入了语义交互特征,扩展词项选择的效果显著提高。此外,我们还进一步加入基于成对损失函数的神经网络来理解词项的统计学特征,运用词频、逆文档频率等来纠正语义模型可能存在的语义漂移问题。实践证明,我们的方法相比于之前传统的伪相关反馈算法有着更高的排序准确度及更好的鲁棒性,可以被应用于各类搜索场景。
-
公开(公告)号:CN112612951A
公开(公告)日:2021-04-06
申请号:CN202011491942.6
申请日:2020-12-17
Applicant: 上海交通大学
IPC: G06F16/9535 , G06N20/00
Abstract: 本发明公开了一种面向收益提升的无偏学习排序方法,基于有偏的用户点击日志数据,直接优化一个无偏的效益指标。首先学习了一个位置敏感的点击率预估模型,建模不同特征的查询‑文档对在不同位置下的点击率,得到的用户效益的无偏估计,基于lambdaloss的学习框架提出了一个基于lambdaloss的目标函数来直接优化用户效益的无偏估计,通过学习一个打分函数可以将测试阶段的复杂度降低到O(N)。理论分析证明该目标函数可以优化目标效益的一个有效上界。本发明在三个公开数据集上都证明了该方法的有效性,可以被用于列表推荐,网页搜索,广告系统等场景。
-
-
-