-
公开(公告)号:CN115438177A
公开(公告)日:2022-12-06
申请号:CN202110623900.1
申请日:2021-06-04
Applicant: 中国科学院软件研究所
Abstract: 本发明了一种基于层级实体排序和生成文本对比的开放域关系抽取方法及装置,包括:利用因果介入,并通过层级实体排序和生成文本对比的方式训练编码器;将无标注数据集中每一实例输入训练好的编码器,得到该实例的关系表示;依据所述关系表示进行聚类,得到关系抽取结果。本发明利用因果介入方式,排除数据集中混淆因子的影响,并避免了模型不稳定的问题。
-
公开(公告)号:CN114510928A
公开(公告)日:2022-05-17
申请号:CN202210031254.4
申请日:2022-01-12
Applicant: 中国科学院软件研究所 , 北京百度网讯科技有限公司
IPC: G06F40/253 , G06F40/30 , G06K9/62
Abstract: 本发明提出一种基于统一结构生成的通用信息抽取方法及系统,属于自然语言处理技术领域,采用通用的结构化抽取语言表达不同的抽取结构,该结构化语言包含不同的层次,可以表示多种不同结构的信息抽取结果;解码时通过结构化框架抽取引导机制对特定的抽取需求进行建模,帮助模型快速泛化到特定任务;利用不同的任务对统一生成模型进行预训练,并对预训练后的模型进行微调,提高统一生成模型的性能。
-
公开(公告)号:CN113609244A
公开(公告)日:2021-11-05
申请号:CN202110637453.5
申请日:2021-06-08
Applicant: 中国科学院软件研究所
Abstract: 本发明提出一种基于可控生成的结构化记录抽取方法和装置。该方法可以从非结构化的文本中自动抽取结构化的文本记录,其抽取步骤包括:对于目标文本,序列到结构网络首先利用基于自注意力机制的编码器捕捉目标文本的文本语义,然后利用基于混合注意力机制的解码器生成结构化表示;其中,基于前缀树的可控解码算法在生成的过程中对解码空间进行约束,注入框架知识,引导模型解码,生成线性表达式;最后,对线性表达式进行结构转化,生成结构化记录。在模型训练阶段,采用两阶段的模型学习方法帮助模型进行高效的学习:第一阶段采用子结构进行模型学习,注重文本块抽取能力的训练;第二阶段采用完整记录结构进行模型学习,注重结构抽取能力的训练。
-
公开(公告)号:CN109558591A
公开(公告)日:2019-04-02
申请号:CN201811438685.2
申请日:2018-11-28
Applicant: 中国科学院软件研究所
Abstract: 本发明提供一种中文事件检测方法及装置。所述装置包括混合特征表示生成模块、触发词块生成模块和事件类别分类模块,所述混合特征表示生成模块包括字符级别特征表示生成单元、词级别特征表示生成单元和特征混合单元。本发明能够直接在字符级别生成完整的触发词块以及对触发词块进行事件类别分类,从而避免事件触发词块与词的不匹配问题,得出更鲁棒的事件检测结果。
-
-
-