-
公开(公告)号:CN117236330B
公开(公告)日:2024-01-26
申请号:CN202311524544.3
申请日:2023-11-16
Applicant: 南京邮电大学
IPC: G06F40/289 , G06F40/30 , G06F16/35 , G06N3/094
Abstract: 本发明属于自然语言处理技术领域,公开了一种基于互信息和对抗神经网络的增强主题多样性方法,包括:语料库中词语预处理作为真实文本词分布;将随机采样的语料作为编码器的输入,生成真实文本主题分布向量;将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对;将狄利克雷分布随机采样的假文本主题分布为生成器输入,并转换为假文本词分布向量;以真实分布对和假分布对在对抗训练过程中生成主题词;以判别器损失函数和最大化互信息的正则化损失为目标进行训练。本发明对文本主题进行建模,挖掘高质量主题,将互信息(56)对比文件吴少康等.基于深度学习的嵌入式主题模型研究.电脑知识与技术.2022,第18卷(第28期),第7页-10页.Ching-Sheng Lin等.GenerativeAdversarial Network for Joint Headlineand Summary Generation.IEEE.2022,第10卷第90745页-90751页.夏家莉;曹中华;彭文忠;张守胜.Skip-Gram结构和词嵌入特性的文本主题建模.小型微型计算机系统.2020,第41卷(第07期),第1400页-1405页.
-
公开(公告)号:CN117708336B
公开(公告)日:2024-04-19
申请号:CN202410160917.1
申请日:2024-02-05
Applicant: 南京邮电大学
IPC: G06F16/35 , G06F40/205 , G06F40/30 , G06F18/2415 , G06F18/2431 , G06F18/27 , G06N3/0455 , G06N3/0495 , G06N3/096 , G06N5/045
Abstract: 本发明属于情感分析技术领域,涉及一种基于主题增强和知识蒸馏的多策略情感分析方法;包括对数据集进行预处理获得真实文本;将真实文本中句子使用词袋模型表示成句子词袋表示并作为主题模型的输入,生成主题嵌入表示;将真实文本作为BERT‑base模型的输入获得句子向量表示,通过12层编码器生成12维包含语义信息的特征向量,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的句子向量,完成教师模型训练;通过三种蒸馏策略及分类目标损失,对学生模型进行训练,将待分析的数据集输入训练好的学生模型中,得到分类结果;相比现有的情感分析模型,本发明具有更高的分类准确性和模型可解释性,降低模型时延,压缩网络参数。
-
公开(公告)号:CN117236330A
公开(公告)日:2023-12-15
申请号:CN202311524544.3
申请日:2023-11-16
Applicant: 南京邮电大学
IPC: G06F40/289 , G06F40/30 , G06F16/35 , G06N3/094
Abstract: 本发明属于自然语言处理技术领域,公开了一种基于互信息和对抗神经网络的增强主题多样性方法,包括:语料库中词语预处理作为真实文本词分布;将随机采样的语料作为编码器的输入,生成真实文本主题分布向量;将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对;将狄利克雷分布随机采样的假文本主题分布为生成器输入,并转换为假文本词分布向量;以真实分布对和假分布对在对抗训练过程中生成主题词;以判别器损失函数和最大化互信息的正则化损失为目标进行训练。本发明对文本主题进行建模,挖掘高质量主题,将互信息最大化技术融入到对抗神经主题建模过程,增强主题多样性,具有更高的主题同一性和多样性指标。
-
公开(公告)号:CN117708336A
公开(公告)日:2024-03-15
申请号:CN202410160917.1
申请日:2024-02-05
Applicant: 南京邮电大学
IPC: G06F16/35 , G06F40/205 , G06F40/30 , G06F18/2415 , G06F18/2431 , G06F18/27 , G06N3/0455 , G06N3/0495 , G06N3/096 , G06N5/045
Abstract: 本发明属于情感分析技术领域,涉及一种基于主题增强和知识蒸馏的多策略情感分析方法;包括对数据集进行预处理获得真实文本;将真实文本中句子使用词袋模型表示成句子词袋表示并作为主题模型的输入,生成主题嵌入表示;将真实文本作为BERT‑base模型的输入获得句子向量表示,通过12层编码器生成12维包含语义信息的特征向量,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的句子向量,完成教师模型训练;通过三种蒸馏策略及分类目标损失,对学生模型进行训练,将待分析的数据集输入训练好的学生模型中,得到分类结果;相比现有的情感分析模型,本发明具有更高的分类准确性和模型可解释性,降低模型时延,压缩网络参数。
-
-
-