一种开放域多答案问答的实现方法、设备及存储介质

    公开(公告)号:CN116089592A

    公开(公告)日:2023-05-09

    申请号:CN202310277276.3

    申请日:2023-03-21

    Applicant: 南京大学

    Inventor: 程龚 赵悦 黄子贤

    Abstract: 一种开放域多答案问答的实现方法、设备及存储介质,包含三个阶段,稠密检索阶段,领域内预训练阶段及有监督多答案生成阶段,首先基于稠密检索模块从百科语料中找到相关段落,然后基于多段落阅读器对相关段落编码,基于多答案集合最优生成顺序训练答案生成器,得到回答该问题的多个答案。由于多答案数据集的标注成本过高,因此多答案数据集普遍偏小,本发明提出了领域内预训练来提升多答案生成的表现,多答案集合最优生成顺序策略缓解了多答案求解中一对多生成范式强制指定生成答案顺序带来的错误偏置。本发明在开放域多答案求解数据集上取得了比较好的效果。

    基于生成模型辅助机器阅读理解的实现方法及装置

    公开(公告)号:CN114611510A

    公开(公告)日:2022-06-10

    申请号:CN202210285465.0

    申请日:2022-03-23

    Applicant: 南京大学

    Inventor: 程龚 吴傲 黄子贤

    Abstract: 基于生成模型辅助机器阅读理解的实现方法及装置,对选择题构建阅读理解模型,包括两个工作流,1)生成流,将问题输入编码器获得问题编码表示,再输入解码器获得答案解码表示,训练时根据正确选项计算teacher‑forcing损失;2)阅读理解流,将问题编码表示单独由解码器使用贪心策略生成问题扩展的向量表示,同时将问题分别拼接各选项后输入编码器,将对应输出的问题选项表示与扩展的向量表示交互融合,由所得融合结果获得每个选项对应的logit,训练时将这些logit与正确选项之间计算交叉熵损失,以teacher‑forcing损失和交叉熵损失结合起来对阅读理解模型进行训练优化。本发明使用单数据集训练,提高了对选择题的阅读理解准确率。

Patent Agency Ranking