面向中文金融文本的嵌套和不连续实体的命名实体识别系统

    公开(公告)号:CN115688777A

    公开(公告)日:2023-02-03

    申请号:CN202211193965.8

    申请日:2022-09-28

    Abstract: 本发明是一种面向中文金融文本的嵌套和不连续实体的命名实体识别系统。本发明系统包括词嵌入编码模块、语义增强模块和金字塔层叠式解码模块;词嵌入编码模块对金融元文本进行编码,由上下文编码层获取上下文特征,输出金融元文本的词嵌入向量;语义增强模块对当前词计算相似词,利用相似词获取当前词语义增强后的嵌入向量;金字塔层叠式解码模块包括L层解码层,每一解码层预测长度为l的实体,第L层识别长度为L的嵌套实体,每一解码层都由LSTM和CNN两个组件组成,并加入逆向金字塔模型避免高层识别长实体时对底层信息的遗漏。本发明系统在识别中文金融文本中嵌套实体和不连续实体方面展现出优越性能,提升了实体识别的准确率。

Patent Agency Ranking