-
公开(公告)号:CN120011482A
公开(公告)日:2025-05-16
申请号:CN202411939591.9
申请日:2024-12-26
Applicant: 苏州空天信息研究院
IPC: G06F16/332 , G06F16/3331 , G06F16/35 , G06F18/214 , G06N3/0895 , G06N3/092
Abstract: 本发明公开了一种基于大语言模型的文档检索查询改写方法及系统,收集查询改写数据集,进行相关性过滤和检索增量,保留与查询改写任务高度相关的数据样本;收集与查询改写任务高度相关的辅助任务数据集,构建多任务SFT数据集;基于GPT‑2构建自监督微调模型,以查询为输入,以查询改写为输出,使用多任务SFT数据集训练自监督微调模型;将自监督微调模型视为智能体,基于强化学习进行目标对齐,使其在生成查询改写时更符合用户意图;采用束搜索算法为每个查询生成多个候选改写,输入目标对齐的自监督微调模型,检索一组相关文档。本发明提高了检索相关性,提升了用户满意度。
-
公开(公告)号:CN116955537A
公开(公告)日:2023-10-27
申请号:CN202310978360.8
申请日:2023-08-04
Applicant: 苏州空天信息研究院
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F18/23
Abstract: 本发明公开一种融合新闻发生时间与语义相似度的事件脉络链路生成方法,对新闻文本内容进行嵌入式表征,对新闻发生时间进行数字化表示,完成新闻集合预处理;对预处理后的新闻集合按照发生时间进行窗口划分,形成若干新闻子集合;结合新闻的发生时间和文本内容信息,对每一个窗口内的新闻子集合使用聚类算法计算事件簇结果并进行评估;在各个窗口下计算得到的事件簇结果中,选择属于同一类的簇进行融合,并在融合后的簇结果中选择事件簇代表节点形成新一轮的新闻集合;针对新形成的新闻集合,重复上述过程,直至得到最终的事件脉络结果。本发明提高了新闻事件脉络结果生成的准确性、可解释性以及高效性。
-