一种基于可控生成的结构化记录抽取方法和装置

    公开(公告)号:CN113609244A

    公开(公告)日:2021-11-05

    申请号:CN202110637453.5

    申请日:2021-06-08

    Abstract: 本发明提出一种基于可控生成的结构化记录抽取方法和装置。该方法可以从非结构化的文本中自动抽取结构化的文本记录,其抽取步骤包括:对于目标文本,序列到结构网络首先利用基于自注意力机制的编码器捕捉目标文本的文本语义,然后利用基于混合注意力机制的解码器生成结构化表示;其中,基于前缀树的可控解码算法在生成的过程中对解码空间进行约束,注入框架知识,引导模型解码,生成线性表达式;最后,对线性表达式进行结构转化,生成结构化记录。在模型训练阶段,采用两阶段的模型学习方法帮助模型进行高效的学习:第一阶段采用子结构进行模型学习,注重文本块抽取能力的训练;第二阶段采用完整记录结构进行模型学习,注重结构抽取能力的训练。

    中文事件检测方法及装置
    44.
    发明公开

    公开(公告)号:CN109558591A

    公开(公告)日:2019-04-02

    申请号:CN201811438685.2

    申请日:2018-11-28

    Abstract: 本发明提供一种中文事件检测方法及装置。所述装置包括混合特征表示生成模块、触发词块生成模块和事件类别分类模块,所述混合特征表示生成模块包括字符级别特征表示生成单元、词级别特征表示生成单元和特征混合单元。本发明能够直接在字符级别生成完整的触发词块以及对触发词块进行事件类别分类,从而避免事件触发词块与词的不匹配问题,得出更鲁棒的事件检测结果。

Patent Agency Ranking