一种结合生成式语言模型与语义文档图谱的多文档问答检索方法

    公开(公告)号:CN119903190A

    公开(公告)日:2025-04-29

    申请号:CN202411728000.3

    申请日:2024-11-28

    Abstract: 本发明公开了一种结合生成式语言模型与语义文档图谱的多文档问答检索方法,所述方法进一步完善和优化了文档知识图谱的构建与遍历方式,分别设计基于bert类模型去构建图谱构建,设计KGP3算法优化检索遍历方式。在图谱遍历过程中,结合主问题及已获得节点,生成涉及下一个需要节点信息的子问题,从邻居节点中精确挑选出最合适的文档节点,并判断该节点与初始问题的相关性,若不相关,则不列入后续检索列表。这种方法不仅高效且具备可追溯性和可解释性,同时抽象概括了模型在图谱遍历中选择下一跳节点的整体过程。为了降低成本,还对小型编码器‑解码器T5模型进行了改进,并在该模型中引入对比学习机制,进一步提升了小型模型的检索性能。

    一种用于多跳问答检索模型的数据增强及训练方法

    公开(公告)号:CN119669755A

    公开(公告)日:2025-03-21

    申请号:CN202411728003.7

    申请日:2024-11-28

    Abstract: 本发明公开了一种用于多跳问答检索模型的数据增强及训练方法,包括如下步骤:步骤1、获取一个多跳问答数据集,该数据集由多跳问题及其对应的文档集合组成,文档集合包括第一跳检索文档、第二跳检索文档以及其他相关文档;步骤2、对文档集合中的第一跳文档、第二跳文档进行正例去噪,得到去噪后的文档用作模型训练的新正例,文档其他残余部分作为训练补充负例;步骤3、将得到的数据输入到多跳问答预训练语言模型进行训练。本发明提出了一种基于命题子句的正例去噪策略,通过将命题子句作为中间步骤,显著减少文档段落中与问题无关的信息干扰,从而提高模型对相关信息的捕获精度和效率。这一策略增强了模型在多跳推理任务中的准确性和鲁棒性。

Patent Agency Ranking