基于预测位置注意力的双向LSTM命名实体识别方法

    公开(公告)号:CN109933801B

    公开(公告)日:2022-03-29

    申请号:CN201910225622.7

    申请日:2019-03-25

    Abstract: 本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff‑3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

    基于预测位置注意力的双向LSTM命名实体识别方法

    公开(公告)号:CN109933801A

    公开(公告)日:2019-06-25

    申请号:CN201910225622.7

    申请日:2019-03-25

    Abstract: 本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff-3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

    一种基于多类型深度特征的中文命名实体识别方法

    公开(公告)号:CN110032634A

    公开(公告)日:2019-07-19

    申请号:CN201910310766.2

    申请日:2019-04-17

    Abstract: 本发明涉及一种基于多类型深度特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先依据公开且已训练好的字符向量表,将非结构化文本中的字符替换为数值向量;其次分别提取字符级数值向量序列中的文本序列特征、字符重要度特征和上下文重要度特征;然后将每个字符对应的三个特征向量串联成一个特征向量,用线性链式条件随机场对其进行标注;最后将非结构化文本和标签序列对齐,使字符和标签按顺序一一对应,根据标签获得命名实体,表示为“实体——类别”对。本发明在Microsoft Research Asia中文命名实体识别语料上进行实验,结果表明通过引入软注意力模型和上下文注意力模型,实现了对字符重要度特征和上下文重要度特征的利用,提高了F1值。

    基于句义结构模型的开放式实体关系抽取方法

    公开(公告)号:CN108363816A

    公开(公告)日:2018-08-03

    申请号:CN201810234056.1

    申请日:2018-03-21

    CPC classification number: G06F16/3344 G06F16/367 G06F17/271 G06F17/277

    Abstract: 本发明涉及基于句义结构模型的开放式实体关系抽取方法,属于计算机与信息科学技术领域。本发明首先提取微博数据的正文,进行分句、分词、去停用词和词性标注,再利用依存分析工具,得到依存句法解析树;其次通过基本名词识别规则确定候选论元,结合关系词抽取规则和论元抽取规则得到实体关系三元组,利用置信度计算规则筛选实体关系三元组,得到候选实体关系对;然后基于CSM计算句子相似度得到Sim1,基于PV计算句子相似度得到Sim2,并进行相似度加权融合得到句子相似度,从而得到句子相似度矩阵;最后通过生成的句子相似度矩阵,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明在NLP&&CC微博评测语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。

    PU强化学习的远程监督命名实体识别方法

    公开(公告)号:CN113221575B

    公开(公告)日:2022-08-02

    申请号:CN202110607269.6

    申请日:2021-05-28

    Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。

    PU强化学习的远程监督命名实体识别方法

    公开(公告)号:CN113221575A

    公开(公告)日:2021-08-06

    申请号:CN202110607269.6

    申请日:2021-05-28

    Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。

    融合局部-全局字符级关联特征的中文命名实体识别方法

    公开(公告)号:CN111651993A

    公开(公告)日:2020-09-11

    申请号:CN202010394579.X

    申请日:2020-05-11

    Abstract: 本发明涉及融合局部-全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先将一段非结构化中文文本转化为一个初始数值向量序列;其次提取其中的字符级序列特征和局部-全局字符级关联特征,形成特征向量序列;然后使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后根据非结构化中文文本和标签序列,输出“实体&类别”对。本发明分别在Microsoft Research Asia和E-commerce中文命名实体识别语料上进行实验,结果表明通过引入字符级序列特征和局部-全局字符级关联特征,有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,提高了F1值。

Patent Agency Ranking