命名实体识别方法和系统

    公开(公告)号:CN116341555B

    公开(公告)日:2023-08-04

    申请号:CN202310606442.X

    申请日:2023-05-26

    Abstract: 本发明提供了一种命名实体识别方法和系统,该方法包括:对各样本文本和对应的样本图片分别进行编码得到文本表示和图片表示;根据各图片表示对各文本表示进行信息增强得到文本增强表示,并分别基于文本表示和文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;根据第一预测结果和第二预测结果确定模型总训练代价,通过最小化模型总训练代价对命名实体识别模型进行参数更新,直至收敛;将待识别文本和/或对应的图片输入收敛后的命名实体识别模型进行识别,得到命名实体识别结果。本发明能有效地建立文本中的实体与图片中的物体之间的联系,从而充分利用图片中的信息学习更好的文本表示,提高了命名实体识别的性能。

    基于层次Transformer和图神经网络的评论情感分析方法及系统

    公开(公告)号:CN113627195B

    公开(公告)日:2022-01-18

    申请号:CN202111195660.6

    申请日:2021-10-14

    Abstract: 本发明提出一种基于层次Transformer和图神经网络的评论情感分析方法与系统,首先基于层次Transformer网络学习用户、产品与评论文档的初步语义向量表示;基于初步语义向量表示计算用户之间、产品之间和评论文档之间的相似度,用于构建用户—产品—评论文档关系图;基于图神经网络利用用户—产品—评论文档关系图的结构信息,进一步优化用户、产品以及评论文档的初步语义向量表示,以得到用户、产品和评论文档的最终语义向量表示,根据最终语义向量表示计算得到最终预测结果。本发明可显式地学习用户和产品的语义向量表示,并显式地建模相似用户之间,相似产品之间和相似评论之间的联系,可实现良好的预测效果并提高运算效率。

    一种基于双向序列生成的汉语篇章连接词识别方法

    公开(公告)号:CN118013962B

    公开(公告)日:2024-06-21

    申请号:CN202410417577.6

    申请日:2024-04-09

    Abstract: 本发明提供一种基于双向序列生成的汉语篇章连接词识别方法,通过句子预处理及编码模块学习候选篇章连接词的初始语义向量表示,基于Longformer的段落编码模块通过全局注意力机制和局部注意力机制引入段落级别的上下文信息,计算候选篇章连接词的最终语义向量表示,基于双向序列生成的预测模块包括正向生成层和反向生成层,分别使用两个长短时记忆网络从左至右和从右至左预测篇章连接词序列,实现篇章连接词的识别,此外,通过后处理模块处理复合连接词的识别问题,并通过互学习代价增强的训练模块使正向生成层和反向生成层能相互学习,提升识别的性能,本发明能够充分捕获篇章连接词之间双向长距离的依赖关系,显著地提高汉语篇章连接词识别的性能。

    基于条件随机场的隐式篇章关系识别方法与系统

    公开(公告)号:CN110633473A

    公开(公告)日:2019-12-31

    申请号:CN201910909002.5

    申请日:2019-09-25

    Abstract: 本发明涉及一种基于条件随机场的隐式篇章关系识别方法及系统,该方法包括如下步骤:将接收到的语句进行编码以得到词向量序列;对词向量序列中第一语句与第二语句之间的篇章关系进行特征提取以得到多个不同级别的特征向量;根据多个不同级别的特征向量,计算得到多个篇章关系分类对应的初步结果数据;提供用于编码相邻篇章关系之间映射信息的转移矩阵,根据转移矩阵以及初步结果数据计算得到任一篇章关系序列得分,并根据篇章关系序列得分计算得到任一篇章关系序列对应的条件概率。本发明充分利用多级篇章关系之间存在的映射关系,有效提高各个级别分类的性能,也可有效减少在多个级别的分类任务上出现矛盾的预测结果的情况。

    一种细分领域增强的隐式篇章关系识别方法

    公开(公告)号:CN118095250B

    公开(公告)日:2024-06-28

    申请号:CN202410488368.0

    申请日:2024-04-23

    Abstract: 本发明提供一种细分领域增强的隐式篇章关系识别方法,应用于隐式篇章关系识别模型,所述隐式篇章关系识别模型包括基础编码模块、多个细分领域编码模块、综合领域编码及分类模块、细分领域训练模块和综合领域训练模块,对于来自不同细分领域的实例,模型能够基于多级增强层自动选择相应细分领域的知识,有利于提升识别的性能;本发明使用多个细分领域编码模块可以更好地保存各细分领域的知识,以避免集成到同一模块中可能造成的知识遗忘问题,各细分领域编码模块可以单独训练,在所含细分领域发生变化时,重新训练模型的代价较小。

    一种用户信息增强的长文本细粒度情感分析方法

    公开(公告)号:CN117688185A

    公开(公告)日:2024-03-12

    申请号:CN202410156109.8

    申请日:2024-02-04

    Abstract: 本发明提供一种用户信息增强的长文本细粒度情感分析方法,本发明通过全局信息引导的编码模块把文档级的全局信息引入层次Transformer子模块中,以更好地学习文档的语义表示,用户表示的学习和集成模块通过一个共享网络在相似用户之间共享信息,以学习更好的用户表示,继而集成用户表示到Transformer层的多头注意力机制和多层前向神经网络中,以建模用户情感表达的偏好,通过融合对比学习的总代价计算模块计算模型训练的总代价,本发明提出的方法能够较好地学习长文本的语义表示、有效地利用用户信息、能够准确区分细粒度的情感,分析性能较现有的方法有实质性的提高。

    命名实体识别方法和系统

    公开(公告)号:CN116341555A

    公开(公告)日:2023-06-27

    申请号:CN202310606442.X

    申请日:2023-05-26

    Abstract: 本发明提供了一种命名实体识别方法和系统,该方法包括:对各样本文本和对应的样本图片分别进行编码得到文本表示和图片表示;根据各图片表示对各文本表示进行信息增强得到文本增强表示,并分别基于文本表示和文本增强表示进行命名实体预测,得到第一预测结果和第二预测结果;根据第一预测结果和第二预测结果确定模型总训练代价,通过最小化模型总训练代价对命名实体识别模型进行参数更新,直至收敛;将待识别文本和/或对应的图片输入收敛后的命名实体识别模型进行识别,得到命名实体识别结果。本发明能有效地建立文本中的实体与图片中的物体之间的联系,从而充分利用图片中的信息学习更好的文本表示,提高了命名实体识别的性能。

    一种段落大意引导的汉语篇章结构分析方法

    公开(公告)号:CN118153566B

    公开(公告)日:2024-07-19

    申请号:CN202410566175.2

    申请日:2024-05-09

    Abstract: 本发明提供一种段落大意引导的汉语篇章结构分析方法,应用于段落大意引导的汉语篇章结构分析模型,该模型包括融合词信息的字级编码模块,文本块级稀疏Transformer编码模块、基于指针网络的解码模块、基本文本摘要语料的预训练模块和基于篇章语料的训练模块。本发明充分利用了汉语篇章结构的特性,实质性地提高了汉语篇章结构分析的性能,具有较强的实用价值,该方法为端到端的自顶向下分析方法,不需要以切分好的基本篇章单元作为输入,有效地避免了错误传播问题,提高了方法的适用性;本发明能较好地学习输入文本的段落大意,并把这种全局信息和段落中文本块的表示等局部信息有效融合,以引导整个篇章结构树的构建,达到提高分析性能的目的。

    一种段落大意引导的汉语篇章结构分析方法

    公开(公告)号:CN118153566A

    公开(公告)日:2024-06-07

    申请号:CN202410566175.2

    申请日:2024-05-09

    Abstract: 本发明提供一种段落大意引导的汉语篇章结构分析方法,应用于段落大意引导的汉语篇章结构分析模型,该模型包括融合词信息的字级编码模块,文本块级稀疏Transformer编码模块、基于指针网络的解码模块、基本文本摘要语料的预训练模块和基于篇章语料的训练模块。本发明充分利用了汉语篇章结构的特性,实质性地提高了汉语篇章结构分析的性能,具有较强的实用价值,该方法为端到端的自顶向下分析方法,不需要以切分好的基本篇章单元作为输入,有效地避免了错误传播问题,提高了方法的适用性;本发明能较好地学习输入文本的段落大意,并把这种全局信息和段落中文本块的表示等局部信息有效融合,以引导整个篇章结构树的构建,达到提高分析性能的目的。

    一种细分领域增强的隐式篇章关系识别方法

    公开(公告)号:CN118095250A

    公开(公告)日:2024-05-28

    申请号:CN202410488368.0

    申请日:2024-04-23

    Abstract: 本发明提供一种细分领域增强的隐式篇章关系识别方法,应用于隐式篇章关系识别模型,所述隐式篇章关系识别模型包括基础编码模块、多个细分领域编码模块、综合领域编码及分类模块、细分领域训练模块和综合领域训练模块,对于来自不同细分领域的实例,模型能够基于多级增强层自动选择相应细分领域的知识,有利于提升识别的性能;本发明使用多个细分领域编码模块可以更好地保存各细分领域的知识,以避免集成到同一模块中可能造成的知识遗忘问题,各细分领域编码模块可以单独训练,在所含细分领域发生变化时,重新训练模型的代价较小。

Patent Agency Ranking