面向中文金融文本的关系抽取方法

    公开(公告)号:CN115688776A

    公开(公告)日:2023-02-03

    申请号:CN202211185619.5

    申请日:2022-09-27

    Abstract: 本发明是一种面向中文金融文本的关系抽取方法,用于中文金融文本处理。本发明方法包括:利用海量中文金融语料微调BERT结构训练金融文本编码器,对语句编码得到句向量;筛选金融关系数据集,对语句进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵;使用基于注意力机制的多层异构图卷积神经网络提取融合句法特征和实体类型特征的实体对;对金融关系触发词表中每类关系的触发词编码获得关系词向量,计算语句的相似度特征;将句向量、相似度特征和实体对拼接输入全连接分类器进行实体关系判断。本发明有效去除文本中冗余信息并保留关键信息,能从结构复杂和关系有重叠的金融长文本中有效抽取实体关系,比现有模型更具优越性。

    面向中文金融文本的嵌套和不连续实体的命名实体识别系统

    公开(公告)号:CN115688777B

    公开(公告)日:2023-05-05

    申请号:CN202211193965.8

    申请日:2022-09-28

    Abstract: 本发明是一种面向中文金融文本的嵌套和不连续实体的命名实体识别系统。本发明系统包括词嵌入编码模块、语义增强模块和金字塔层叠式解码模块;词嵌入编码模块对金融元文本进行编码,由上下文编码层获取上下文特征,输出金融元文本的词嵌入向量;语义增强模块对当前词计算相似词,利用相似词获取当前词语义增强后的嵌入向量;金字塔层叠式解码模块包括L层解码层,每一解码层预测长度为l的实体,第L层识别长度为L的嵌套实体,每一解码层都由LSTM和CNN两个组件组成,并加入逆向金字塔模型避免高层识别长实体时对底层信息的遗漏。本发明系统在识别中文金融文本中嵌套实体和不连续实体方面展现出优越性能,提升了实体识别的准确率。

    面向中文金融文本的关系抽取方法

    公开(公告)号:CN115688776B

    公开(公告)日:2023-05-05

    申请号:CN202211185619.5

    申请日:2022-09-27

    Abstract: 本发明是一种面向中文金融文本的关系抽取方法,用于中文金融文本处理。本发明方法包括:利用海量中文金融语料微调BERT结构训练金融文本编码器,对语句编码得到句向量;筛选金融关系数据集,对语句进行依存句法解析,基于硬剪枝策略输出邻接矩阵和句法类型矩阵;使用基于注意力机制的多层异构图卷积神经网络提取融合句法特征和实体类型特征的实体对;对金融关系触发词表中每类关系的触发词编码获得关系词向量,计算语句的相似度特征;将句向量、相似度特征和实体对拼接输入全连接分类器进行实体关系判断。本发明有效去除文本中冗余信息并保留关键信息,能从结构复杂和关系有重叠的金融长文本中有效抽取实体关系,比现有模型更具优越性。

    面向中文金融文本的嵌套和不连续实体的命名实体识别系统

    公开(公告)号:CN115688777A

    公开(公告)日:2023-02-03

    申请号:CN202211193965.8

    申请日:2022-09-28

    Abstract: 本发明是一种面向中文金融文本的嵌套和不连续实体的命名实体识别系统。本发明系统包括词嵌入编码模块、语义增强模块和金字塔层叠式解码模块;词嵌入编码模块对金融元文本进行编码,由上下文编码层获取上下文特征,输出金融元文本的词嵌入向量;语义增强模块对当前词计算相似词,利用相似词获取当前词语义增强后的嵌入向量;金字塔层叠式解码模块包括L层解码层,每一解码层预测长度为l的实体,第L层识别长度为L的嵌套实体,每一解码层都由LSTM和CNN两个组件组成,并加入逆向金字塔模型避免高层识别长实体时对底层信息的遗漏。本发明系统在识别中文金融文本中嵌套实体和不连续实体方面展现出优越性能,提升了实体识别的准确率。

Patent Agency Ranking