-
公开(公告)号:CN114896400A
公开(公告)日:2022-08-12
申请号:CN202210532864.2
申请日:2022-05-11
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于正则约束的图神经网络文本分类方法,属于自然语言处理领域,包括以下步骤:构图:采用TextING的构图方法构图,添加语义边和语法边,并定义不同边的类型,初始化边类型特征Ec,输入图神经网络中进行训练;基于图神经网络进行单词交互:采用带多样正则约束的GAT为邻域结点分配不同注意力权重来过滤边噪声信息,引导注意力分数分布减少重叠;文本表示:通过最大池化和平均池化将单词结点特征聚合为篇章表示,根据篇章表示获得文本的分类结果,并定义损失函数来约束结点特征的更新过程。本发明丰富了单词间语法语义相关性,提高了长距离和非连续的单词交互能力,提高了模型表达能力。
-
公开(公告)号:CN115062146B
公开(公告)日:2024-06-28
申请号:CN202210656832.3
申请日:2022-06-07
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06N3/0442 , G06N3/0455 , G06N3/0985
Abstract: 本发明涉及一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,属于自然语言处理领域,Bert编码器作为文本编码器,生成以标记上下文为条件的文本表示,并包含丰富的文本信息;事件类型检测解码器基于Bert文本分类模型,对事件进行分类;触发词提取解码器通过事件类型检测与触发词提取之间的条件依赖关系,根据获取到的事件类型提取出触发词;事件元素提取解码器采用多头注意力结合双向LSTM层对事件元素进行提取;损失权重调整模块结合多个损失函数,利用多个目标的同方差不确定性为每个任务动态分配权重。
-
公开(公告)号:CN115062146A
公开(公告)日:2022-09-16
申请号:CN202210656832.3
申请日:2022-06-07
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于BiLSTM结合多头注意力的中文重叠事件抽取系统,属于自然语言处理领域,Bert编码器作为文本编码器,生成以标记上下文为条件的文本表示,并包含丰富的文本信息;事件类型检测解码器基于Bert文本分类模型,对事件进行分类;触发词提取解码器通过事件类型检测与触发词提取之间的条件依赖关系,根据获取到的事件类型提取出触发词;事件元素提取解码器采用多头注意力结合双向LSTM层对事件元素进行提取;损失权重调整模块结合多个损失函数,利用多个目标的同方差不确定性为每个任务动态分配权重。
-
公开(公告)号:CN114896400B
公开(公告)日:2024-06-21
申请号:CN202210532864.2
申请日:2022-05-11
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于正则约束的图神经网络文本分类方法,属于自然语言处理领域,包括以下步骤:构图:采用TextING的构图方法构图,添加语义边和语法边,并定义不同边的类型,初始化边类型特征Ec,输入图神经网络中进行训练;基于图神经网络进行单词交互:采用带多样正则约束的GAT为邻域结点分配不同注意力权重来过滤边噪声信息,引导注意力分数分布减少重叠;文本表示:通过最大池化和平均池化将单词结点特征聚合为篇章表示,根据篇章表示获得文本的分类结果,并定义损失函数来约束结点特征的更新过程。本发明丰富了单词间语法语义相关性,提高了长距离和非连续的单词交互能力,提高了模型表达能力。
-
公开(公告)号:CN115114932A
公开(公告)日:2022-09-27
申请号:CN202210738535.3
申请日:2022-06-24
Applicant: 重庆邮电大学
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。
-
公开(公告)号:CN114969343A
公开(公告)日:2022-08-30
申请号:CN202210639693.3
申请日:2022-06-07
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F40/216 , G06F40/30
Abstract: 本发明涉及一种结合相对位置信息的弱监督文本分类方法,属于自然语言处理领域,包括以下步骤:S1:输入初始化种子词,以及与初始化种子词同类的为标记文档;S2:生成伪标签;S3:基于生成的伪标签训练Transformer文本分类器;S4:通过文本分类器为未标记的文本分配标签;S5:通过比较排序方法,更新每一个类别的种子词,返回步骤S2进行迭代训练。本发明提升了模型的学习能力,提高了分类的准确率。
-
公开(公告)号:CN114997149B
公开(公告)日:2025-04-11
申请号:CN202210625550.7
申请日:2022-06-02
Applicant: 重庆邮电大学
IPC: G06F40/247 , G06F40/30 , G06F40/205 , G06F16/355 , G06F18/22
Abstract: 本发明涉及一种基于提示学习的中文词义消歧方法,属于计算机技术领域。基于BERT的大多数方法都采用使用BERT迁就下游任务的形式,首先将预训练模型应用到下游任务上,然后再通过微调预训练语言模型提升性能。但随着预训练语言模型体量不断地增大,对其微调的硬件要求和实际代价也在变得更艰难。中文的BERT是基于字的,大多数基于BERT的词义消歧模型在预训练MLM模型任务中只能以字为单位去添加MASK标记,词是取得字的平均,对词的表达不够准确。本发明主要解决中文词义消歧模型存在的消歧效率低、监督分类时需要大量数据标注以及未充分利用BERT的自身能力等问题。
-
公开(公告)号:CN114997149A
公开(公告)日:2022-09-02
申请号:CN202210625550.7
申请日:2022-06-02
Applicant: 重庆邮电大学
IPC: G06F40/247 , G06F40/30 , G06F40/205 , G06F16/35 , G06K9/62
Abstract: 本发明涉及一种基于提示学习的中文词义消歧方法,属于计算机技术领域。基于BERT的大多数方法都采用使用BERT迁就下游任务的形式,首先将预训练模型应用到下游任务上,然后再通过微调预训练语言模型提升性能。但随着预训练语言模型体量不断地增大,对其微调的硬件要求和实际代价也在变得更艰难。中文的BERT是基于字的,大多数基于BERT的词义消歧模型在预训练MLM模型任务中只能以字为单位去添加MASK标记,词是取得字的平均,对词的表达不够准确。本发明主要解决中文词义消歧模型存在的消歧效率低、监督分类时需要大量数据标注以及未充分利用BERT的自身能力等问题。
-
公开(公告)号:CN115114932B
公开(公告)日:2024-06-28
申请号:CN202210738535.3
申请日:2022-06-24
Applicant: 重庆邮电大学
IPC: G06F40/30 , G06F40/289 , G06F40/211 , G06N3/048 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。
-
公开(公告)号:CN115034221B
公开(公告)日:2024-06-28
申请号:CN202210593426.7
申请日:2022-05-27
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/211 , G06F16/35 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本发明涉及一种基于BiLSTM结合全局指针的重叠关系抽取系统,属于计算机技术领域。该系统包括依次连接的共享的Bert编码器、关系类型提取器、头实体提取器和尾实体提取器;所述Bert编码器通过所有层中联合调节左右上下文来预训练来自未标记文本的深层双向表示;设置的输出层,对预训练的BERT模型进行调整;采用预训练模型bert编码文本信息,具有丰富的文本信息;在实体提取模块,本发明提出了利用关系类型和多头注意力结合来引导实体提取,可以充分利用关系类型外部知识,避免隔离关系和实体之间的联系,并且通过多头注意力来给重要信息分配更高的注意力得分。
-
-
-
-
-
-
-
-
-