融合句法信息的无触发词事件检测方法

    公开(公告)号:CN113239142A

    公开(公告)日:2021-08-10

    申请号:CN202110451650.8

    申请日:2021-04-26

    Abstract: 本发明涉及融合句法信息的无触发词事件检测方法,属于自然语言处理技术领域。本发明首先获取预处理语料的句法依存信息以及进行BPE编码获取子词单元;将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示;采用transformer作为编码器,将句法信息与文本的语义信息进行融合;最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。本发明的检测方法更简便有效。

    基于阅读理解的中文命名实体识别方法

    公开(公告)号:CN112101027A

    公开(公告)日:2020-12-18

    申请号:CN202010720804.4

    申请日:2020-07-24

    Abstract: 本发明涉及基于阅读理解的中文命名实体识别方法,属于自然语言处理技术领域。本发明包括步骤:对文档级语料进行分字处理,得到文档级序列;获取由检索标签问题、文档级序列实体及文档级序列构成的三元组;将三元组中的检索标签问题与文档序列作为输入,经过BERT编码层生成融入文档级上下文信息的隐藏输出;将融入文档级上下文信息的隐藏输出经过卷积神经网络,获取长距离上下文的语义特征,捕获整个文档上下文的语义信息,将语义信息压缩到特征映射中;利用整个文档上下文的语义信息通过预测层对文档中所有实体进行预测,预测实体的起始索引和终止索引,将其拼接从而生成命名实体。本发明能进行文档内的实体识别,且识别效果好。

    基于判别字典学习的图像融合与超分辨率联合实现方法

    公开(公告)号:CN111784572A

    公开(公告)日:2020-10-16

    申请号:CN202010425926.0

    申请日:2020-05-19

    Abstract: 本发明涉及一种基于判别字典学习的图像融合与超分辨率联合实现方法,属于数字图像处理技术领域。具体来说,首先联合训练两对低秩、稀疏字典和一个高、低分辨图像编码系数转换矩阵。其中一对字典用于表示输入图像的低秩和稀疏分量,另一对用于重构高分辨率融合低秩和稀疏分量,转换矩阵用于建立高分辨率图像和低分辨率图像之间的潜在关系。然后构造了一个稀疏和低秩分离模型,有效地对输入图像分解为低秩和稀疏分量,从而可以通过不同词典构建高分辨率融合图像。该发明联合实现了图像的融合和超分辨率重构。实验结果表明,无论在视觉效果还是在客观指标上,本发明都具有更好的融合性能。

    基于枢轴语言的汉-缅双语平行句对抽取方法及装置

    公开(公告)号:CN110516230B

    公开(公告)日:2020-09-08

    申请号:CN201910627818.9

    申请日:2019-07-12

    Abstract: 本发明涉及基于枢轴语言的汉‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明首先利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;利用已有的汉‑英、英‑缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;利用联合训练的方法,将英语作为枢轴语言,学习汉‑英‑缅三语的公共表示,计算汉‑缅双语句子的距离,判断汉‑缅双语句子是否为平行句子。本发明解决汉语‑缅语平行数据抽取的问题,利用英语作为枢轴语言抽取汉缅平行句对,为后续自然语言处理工作提供数据基础,对构建汉‑缅双语平行语料库具有重要的理论和实际运用价值。

    基于bert模型和法条知识的法条推荐处理方法

    公开(公告)号:CN111414454A

    公开(公告)日:2020-07-14

    申请号:CN202010180118.2

    申请日:2020-03-16

    Abstract: 本发明涉及基于bert模型和法条知识的法条推荐处理方法,属于数据处理技术领域。本发明对司法领域法条知识进行关键词抽取;对案情描述文本和法条知识关键词进行语义表征;基于注意力机制,对案情描述文本语义表征向量和法条知识关键词语义表征向量进行融合,获得融合法条知识关键词的案情描述特征向量;将融合法条知识关键词的案情描述特征向量进行线性变换和softmax,最终实现法条推荐。本发明将法律条文知识与案件描述进行融合,实现基于知识驱动的智能法条推荐。

    一种基于英语枢轴的弱监督汉越双语词典构建方法

    公开(公告)号:CN111310480A

    公开(公告)日:2020-06-19

    申请号:CN202010062905.7

    申请日:2020-01-20

    Abstract: 本发明涉及一种基于英语枢轴的弱监督汉越双语词典构建方法,属于自然语言处理技术领域。本发明包括步骤:分别收集汉语、英语和越南语的单语语料以及对语料进行预处理;基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间;在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;采用不同的抽取策略抽取汉-越词典。本发明对自动构建汉-越词典的准确率有很大提升。解决现有汉越双语词典构建方法中存在的平行语料、种子词典等非常稀缺且难以标注以及现有方法构建效果不佳的问题。

    一种基于聚类的新闻文本最优主题数计算方法

    公开(公告)号:CN110851592A

    公开(公告)日:2020-02-28

    申请号:CN201910884160.X

    申请日:2019-09-19

    Abstract: 本发明公开了一种基于聚类的新闻文本最优主题数计算方法,步骤为:Step1、新闻文本语料获取和预处理;Step2、对经过预处理的语料库进行词嵌入处理,获得语料库中文本的词向量;Step3、将所有的词向量作为一个整体,利用一种基于快速搜索和寻找密度峰值的聚类方法对词向量进行聚类,获得词向量的聚类数目;Step4、将词向量聚类获得的数目确定为新闻文本的最优主题数。本发明利用词嵌入Word2Vec模型来表达主题语料之间的隐含语义关系,可以避探索词义相关关系,同时算法整体不存在迭代,计算简单,模型复杂度不高,因此可以避免现有方法在确定LDA最优主题数目所使用的都要迭代及每一步都需要求解目标函数的不足。

    基于多成分分析和残差补偿的图像融合与超分辨率重建联合实现方法

    公开(公告)号:CN110706156A

    公开(公告)日:2020-01-17

    申请号:CN201910868215.8

    申请日:2019-09-16

    Abstract: 本发明涉及基于多成分分析和残差补偿的图像融合与超分辨率重建联合实现方法,属于图像处理技术领域。本发明首先设计一种新的多成分分析字典学习模型,在该模型中引入了高、低分辨率稀疏编码系数之间的相关关系。其次,为了补偿超分辨率重建过程中的信息损失,本发明设计一种重建残差补偿机制,将重建残差补偿到重建-融合的初始结果中,以改善最终处理结果的质量。另外,对于结构和纹理成分,本发明提出采用不同的融合方案。对于结构成分,采用L1范数最大的融合规则;对于纹理成分,本发明提出一种新的显著性度量方案来构建融合结果。本发明提出的方法能同时较好地保留原图中的亮度和细节信息,并在主观和客观评价上获得更优的评价结果。

Patent Agency Ranking