基于知识映射的事件关系抽取、语篇关系分析方法及装置

    公开(公告)号:CN113535973B

    公开(公告)日:2023-06-23

    申请号:CN202110632197.0

    申请日:2021-06-07

    Abstract: 本发明公开一种基于知识映射的事件关系抽取、语篇关系分析方法及装置,包括基于语言模型,挖掘事件文本中存在相似的词法与句法结构,得到特殊字词[CLS]的嵌入表示h[CLS];基于变分自编码的语义表示编码器,获取事件文本中可类推的语义关系表示hz;根据嵌入表示h[CLS]与语义关系表示hz进行粗粒度关系分类,并获得粗粒度类别嵌入表示利用嵌入表示h[CLS]、语义关系表示hz及粗粒度类别嵌入表示对事件文本中事件对的关系类别进行分类,得到事件关系抽取结果。本发明降低训练事件关系抽取数据要求,发现大量有价值的隐式事件关系,提升事件抽取及语篇分析的准确率,丰富了大量有价值的隐式事件关系后的事件知识图谱,能够更有效地提升下游自然语言理解任务性能。

    一种基于骨架指导的对话组装方法及装置

    公开(公告)号:CN114398906A

    公开(公告)日:2022-04-26

    申请号:CN202210002194.3

    申请日:2022-01-04

    Abstract: 本发明提出一种基于骨架指导的对话组装方法及装置,属于自然语言技术领域,通过从原对话中抽取覆盖关键信息的骨架词,组合成对话骨架;将原对话中的成分和骨架词进行不同组合,获得多个候选组装句子;根据原对话骨架计算生成每个候选组装句子的概率,作为流畅性特征;统计每个候选组装句子包含的不属于骨架词的词数量作为不相关词数量,得到语义一致特征;将每个候选组装句子与原对话进行拼接,输入到分类器中预测概率,得到信息覆盖度特征;通过组合上述三个特征,对每个候选组装句子进行评价,得到最佳组装句子。本发明只需使用少量的标注数据就能生成流畅、高信息覆盖度和与原对话语义一致的组装句子,从而缓解标注数据稀缺的问题。

    一种基于叠加概念判别的信息抽取主动学习方法及装置

    公开(公告)号:CN117764142A

    公开(公告)日:2024-03-26

    申请号:CN202211115668.1

    申请日:2022-09-14

    Abstract: 本发明提出一种基于叠加概念判别的信息抽取主动学习方法及装置,属于自然语言技术领域。本发明的核心思想是通过判别叠加概念,使信息抽取模型明确标注数据的抽取类别。包含两个主要部分:首先是基于排除法的叠加概念生成方法,通过一种“A but not B”的方法生成一系列叠加概念集合;之后是基于叠加概念判别的文本检索模型,分别编码文本和叠加概念集合的语义表示,通过内积计算文本包含叠加概念集合的置信度得分,最后通过置信度得分从无标注语料中检索若干文本,要求标注者进行标注,进行信息抽取模型训练。本发明通过学习叠加概念实体的标注信息,使得模型能够学习到相关泛化信息,从而准确地抽取目标类别。

    一种针对语言模型知识注入影响的探测方法和系统

    公开(公告)号:CN117371536A

    公开(公告)日:2024-01-09

    申请号:CN202311236307.7

    申请日:2023-09-22

    Abstract: 本发明涉及一种针对语言模型知识注入影响的探测方法和系统,属于自然语言处理领域。该方法包含:(1)面向多种知识注入途径的反事实知识扰动框架:针对两种常见的知识注入途径生成反事实预训练数据集,来训练注入扰动后知识的预训练语言模型。(2)针对知识注入影响的多粒度评测方法:针对通过扰动框架所得到的扰动后预训练语言模型,从多个对知识需求不同粒度的下游任务对其进行评测,包含:知识探针任务、知识导向任务、知识密集型任务和自然语言理解任务。(3)基于上述扰动框架和评测方法对现有预训练语言模型所注入知识影响的分析技术:基于所设计评测方法对扰动前后语言模型进行评测,通过性能对比分析知识注入对下游任务性能影响。

    一种基于大规模语言模型的事件模板归纳方法和系统

    公开(公告)号:CN116450827A

    公开(公告)日:2023-07-18

    申请号:CN202310392962.5

    申请日:2023-04-13

    Abstract: 本发明公开了一种基于大规模语言模型的事件模板归纳方法和系统。该方法主要包含:基于上下文生成的文本概念化,基于置信度衡量的事件模板结构化和基于图的事件模板整合三个模块。具体的,基于上下文生成的文本概念化通过示例学习充分发挥大规模生成式预训练语言模型的生成能力和类比能力,将多样化的事件自然语言表达转换为统一的概念化事件模板语言;基于置信度衡量的事件模板结构化通过显著性、可靠性和一致性筛选概念化的事件类别和事件论元角色从而结构化事件模板语言;基于图的事件模板整合通过图分割聚类算法整合同一事件的分散事件模板。本发明能够在开放场景下有效发现高质量、高覆盖度的事件模板。

    一种面向文档理解模型的性能评价方法

    公开(公告)号:CN116340465A

    公开(公告)日:2023-06-27

    申请号:CN202310391444.1

    申请日:2023-04-13

    Abstract: 本发明公开了一种面向文档理解模型的性能评价方法,其步骤包括:1)构建性能评价基准;2)根据基准对文档数据进行处理,得到用于测试不同性能的数据集;3)实现以待测试的文档理解模型为主干的文本分类模型,在文档分类数据集上训练并测试,得到模型的文档分类能力值;4)实现以文档理解模型为主干的序列标注模型,在文档结构分析数据集上训练并测试,得到模型的文档结构分析能力值;5)实现以文档理解模型为主干的问答模型,在文档信息提取数据集上训练并测试,得到模型的文档信息提取能力值;6)实现以文档理解模型为主干的生成模型,在文档转写数据集上训练并测试,得到模型的文档转写能力值;7)根据上述所得结果获得模型的评估结果。

Patent Agency Ranking