基于标签语义对齐的文本新类发现方法及相关装置

    公开(公告)号:CN117273011A

    公开(公告)日:2023-12-22

    申请号:CN202311256509.8

    申请日:2023-09-26

    Abstract: 本发明属于自然语言处理领域,公开了一种基于标签语义对齐的文本新类发现方法及相关装置,通过预训练的BERT模型提取各待分类文本的特征,得到各待分类文本的向量表示;将各待分类文本的向量表示进行聚类,得到若干聚类簇及各聚类簇的中心向量;遍历各聚类簇的中心向量,通过Word2vec模型输出与各聚类簇的中心向量表示最相似的单词,得到各聚类簇的类别并作为各聚类簇中各待分类文本的类别;通过引入标签语义嵌入作为监督信号,将文本的特征空间与标签的语义空间对齐,不仅为模型训练提供了高质量的监督信号,同时可以为聚类结果生成有效的新类名称,有效的解决了当前新类发现研究中存在的缺少高质量监督信号,及不能生成有效的新类名称等问题。

    一种基于异构图神经网络的方面级文本情感分析方法

    公开(公告)号:CN113255366A

    公开(公告)日:2021-08-13

    申请号:CN202110593991.9

    申请日:2021-05-28

    Abstract: 本发明公开了一种基于异构图神经网络的方面级文本情感分析方法,属于语言处理领域。本发明根据文本中单词与句子的共现关系以及句子中包含的评价方面,构建单词‑句子‑评价方面的三级图结构网络;之后获得各结点的初始嵌入向量表示;再使用图注意力网络训练模型参数,通过多头注意力机制,根据图网络中各结点的连接关系,不断更新图网络中结点的嵌入向量表示,最后预测文本的方面级情感倾向。根据最终得到的句子结点及评价方面结点的嵌入向量表示,利用自注意力机制计算二者之间的相关性,从而得到预测的文本方面级情感倾向。本发明有效的提升了模型的表达能力以及泛化能力。

    基于降噪邻域聚合的文本细粒度类别发现方法及相关装置

    公开(公告)号:CN117216274A

    公开(公告)日:2023-12-12

    申请号:CN202311194250.9

    申请日:2023-09-15

    Abstract: 本发明属于自然语言处理领域,公开了一种基于降噪邻域聚合的文本细粒度类别发现方法及相关装置,包括:迭代更新步骤预设次数,将最终的文本特征提取器作为优化文本特征提取器;采用优化文本特征提取器依次提取各文本的特征,得到若干优化文本特征;并将若干优化文本特征进行聚类得到若干聚类簇,以及获取各聚类簇的簇标签并将各聚类簇的簇标签作为各聚类簇中各文本的细粒度类别。根据特征相似的文本具有相同的细粒度类别这一原理,在更新步骤中,利用粗粒度标签约束、互为近邻约束和排序统计量约束这三种近邻约束,获得文本特征的降噪近邻集合即最终近邻集合,并使用多正样本对比学习使得文本特征和其近邻动量特征具有相似的表征,有效提高文本的细粒度类别的准确性。

    一种基于异构图神经网络的方面级文本情感分析方法

    公开(公告)号:CN113255366B

    公开(公告)日:2022-12-09

    申请号:CN202110593991.9

    申请日:2021-05-28

    Abstract: 本发明公开了一种基于异构图神经网络的方面级文本情感分析方法,属于语言处理领域。本发明根据文本中单词与句子的共现关系以及句子中包含的评价方面,构建单词‑句子‑评价方面的三级图结构网络;之后获得各结点的初始嵌入向量表示;再使用图注意力网络训练模型参数,通过多头注意力机制,根据图网络中各结点的连接关系,不断更新图网络中结点的嵌入向量表示,最后预测文本的方面级情感倾向。根据最终得到的句子结点及评价方面结点的嵌入向量表示,利用自注意力机制计算二者之间的相关性,从而得到预测的文本方面级情感倾向。本发明有效的提升了模型的表达能力以及泛化能力。

    一种基于伪标签自训练和源域再训练的新对话意图识别方法

    公开(公告)号:CN113887643A

    公开(公告)日:2022-01-04

    申请号:CN202111187641.9

    申请日:2021-10-12

    Abstract: 本发明公开了一种基于伪标签自训练和源域再训练的新对话意图识别方法,属于语言处理的技术领域。本发明的基于伪标签自训练和源域再训练的新对话意图识别方法,为包含新对话意图的未标注数据产生伪标签,并利用自训练的方法迭代更新模型参数,使得识别准确率不断提高;同时提出了一种再训练策略,使得知识可以更好地在源域和目标域间进行迁移,从而提高模型的表达能力;最后,本发明融合了三个模型的输出进行集成学习,提高了模型的鲁棒性。

    基于原型迁移和特征对齐的文本类别发现方法及相关装置

    公开(公告)号:CN117725453A

    公开(公告)日:2024-03-19

    申请号:CN202311788944.5

    申请日:2023-12-22

    Abstract: 本发明属于自然语言处理技术领域,公开了一种基于原型迁移和特征对齐的文本类别发现方法及相关装置,包括调用预训练完成的特征提取器,对文本中各文本数据进行特征提取,得到文本中各文本数据的类别特征;采用无监督的聚类方法将文本中各文本数据的类别特征进行聚类,得到各文本数据的聚类结果,并基于各文本数据的聚类结果得到各文本数据的类别。本发明利用类别原型进行有标注数据和无标注数据间的知识迁移,并通过特征对齐为无标注数据学习到好的特征表示,便于后续通过聚类算法发现测试数据中包含的新类别,该方法可以有效地提升模型的表达能力和知识迁移能力,在新类别发现领域有很大的突破。

    基于偏差自纠偏校准的文本广义意图发现方法及相关装置

    公开(公告)号:CN119577577A

    公开(公告)日:2025-03-07

    申请号:CN202411636364.9

    申请日:2024-11-15

    Abstract: 本发明公开了一种基于偏差自纠偏校准的文本广义意图发现方法及系统,包括:获取预测文本样本并输入至预设广义意图发现模型中得到模型原始输出;采用Softmax函数对模型原始输出进行分类,将Softmax最大值所属类别作为文本样本的样本预测类别。其中,广义意图发现模型内部设置有偏分支和可训练分支,首先通过预训练得到一个存在偏差的有偏分支,并固定模型参数。然后,将训练文本样本分别输入到预训练好的有偏分支和可训练分支,输出两个原始输出,利用有偏分支输出的原始输出,对可训练分支的原始输出进行调整,利用模型对已知类别的偏差来缓解类别偏差和类别混淆,对类别偏差和类别混淆都起到了缓解作用,有效提高了模型对新类别的识别准确率。

Patent Agency Ranking