-
公开(公告)号:CN117131383A
公开(公告)日:2023-11-28
申请号:CN202310859637.5
申请日:2023-07-13
Applicant: 中国矿业大学(北京)
IPC: G06F18/22 , G06F18/214 , G06F16/33 , G06F40/30
Abstract: 一种提高双塔模型搜索精排性能的方法包括以下步骤:获取数据集,并对所述数据集进行预处理;搭建双塔模型,设定模型参数,并改进所述双塔模型的损失函数层;将所述步骤1中预处理后的数据集按照比例划分为训练集和测试集;将所述训练集应用至改进后的双塔模型,输出搜索精排结果;其中,所述数据集预处理的方法具体包括:语料库清洗,创建索引,建立答案文档,召回粗排,标签标注;所述改进双塔模型中的损失函数层的方法为在双塔模型损失函数层使用平衡所述数据集中正负样本比例的损失函数。本方法对原始双塔模型的损失函数层进行改造,使得所述双塔模型能够平衡数据集的正负样本,最大程度的提升双塔模型在精排任务中的精确度。