-
公开(公告)号:CN112685538A
公开(公告)日:2021-04-20
申请号:CN202011612232.4
申请日:2020-12-30
Applicant: 北京理工大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/211 , G06F40/30 , G06F40/289
Abstract: 本发明涉及一种结合外部知识的文本向量检索方法,属于开放域文档检索应用技术领域。本方法旨在文本向量空间模型的框架中,引入语言本身的句法结构和词性信息来获得问题的子条件结构,将问题表示成若干个子条件,同时通过BM25算法召回文档来计算问题每个子条件的重要程度,为问题最终的表示提供额外的训练标签。本方法通过提取的子条件以及BM25算法引入的相应的权重分数来优化现有表示方法,最终达到提升文本向量方法检索性能的目的。本方法可以利用基于预训练的深度学习模型获得更好的表示能力和泛化能力,能够更好的建模问题和文档的语义信息,提升了开放域检索的检索质量。
-
公开(公告)号:CN110765254A
公开(公告)日:2020-02-07
申请号:CN201911008817.2
申请日:2019-10-21
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/35
Abstract: 一种融合多视角答案重排序的多文档问答系统模型,属于计算机自然语言处理领域。具体操作步骤包含:①预处理文档数据并得出文档先验概率;②将问题文档对输入答案预测模型中得到候选答案及内在置信度;③训练分类器对候选答案计算外在置信度;④融合内在置信度、外在置信度以及文档先验概率三个视角对候选答案进行排序。本发明提出的融合多视角答案重排序的多文档问答系统模型与已有技术模型相比较,添加了从多视角进行答案重排序的模块,有效解决了传统管道式模型过度依赖文档检索从而容易产生错误累积的问题。实验表明,本发明提出的方法在文本召回率ROUGE-L和精确率BLEU-4的评测指标上有显著提升。
-
公开(公告)号:CN110647629A
公开(公告)日:2020-01-03
申请号:CN201910893027.0
申请日:2019-09-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。
-
公开(公告)号:CN112685538B
公开(公告)日:2022-10-14
申请号:CN202011612232.4
申请日:2020-12-30
Applicant: 北京理工大学
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/211 , G06F40/30 , G06F40/289
Abstract: 本发明涉及一种结合外部知识的文本向量检索方法,属于开放域文档检索应用技术领域。本方法旨在文本向量空间模型的框架中,引入语言本身的句法结构和词性信息来获得问题的子条件结构,将问题表示成若干个子条件,同时通过BM25算法召回文档来计算问题每个子条件的重要程度,为问题最终的表示提供额外的训练标签。本方法通过提取的子条件以及BM25算法引入的相应的权重分数来优化现有表示方法,最终达到提升文本向量方法检索性能的目的。本方法可以利用基于预训练的深度学习模型获得更好的表示能力和泛化能力,能够更好的建模问题和文档的语义信息,提升了开放域检索的检索质量。
-
公开(公告)号:CN110647629B
公开(公告)日:2021-11-02
申请号:CN201910893027.0
申请日:2019-09-20
Applicant: 北京理工大学
Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。
-
-
-
-