一种基于互信息和对抗神经网络的增强主题多样性方法

    公开(公告)号:CN117236330B

    公开(公告)日:2024-01-26

    申请号:CN202311524544.3

    申请日:2023-11-16

    Abstract: 本发明属于自然语言处理技术领域,公开了一种基于互信息和对抗神经网络的增强主题多样性方法,包括:语料库中词语预处理作为真实文本词分布;将随机采样的语料作为编码器的输入,生成真实文本主题分布向量;将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对;将狄利克雷分布随机采样的假文本主题分布为生成器输入,并转换为假文本词分布向量;以真实分布对和假分布对在对抗训练过程中生成主题词;以判别器损失函数和最大化互信息的正则化损失为目标进行训练。本发明对文本主题进行建模,挖掘高质量主题,将互信息(56)对比文件吴少康等.基于深度学习的嵌入式主题模型研究.电脑知识与技术.2022,第18卷(第28期),第7页-10页.Ching-Sheng Lin等.GenerativeAdversarial Network for Joint Headlineand Summary Generation.IEEE.2022,第10卷第90745页-90751页.夏家莉;曹中华;彭文忠;张守胜.Skip-Gram结构和词嵌入特性的文本主题建模.小型微型计算机系统.2020,第41卷(第07期),第1400页-1405页.

    一种基于互信息和对抗神经网络的增强主题多样性方法

    公开(公告)号:CN117236330A

    公开(公告)日:2023-12-15

    申请号:CN202311524544.3

    申请日:2023-11-16

    Abstract: 本发明属于自然语言处理技术领域,公开了一种基于互信息和对抗神经网络的增强主题多样性方法,包括:语料库中词语预处理作为真实文本词分布;将随机采样的语料作为编码器的输入,生成真实文本主题分布向量;将真实文本词分布与主题分布构成分布对且批内随机打乱作为负样本分布对;将狄利克雷分布随机采样的假文本主题分布为生成器输入,并转换为假文本词分布向量;以真实分布对和假分布对在对抗训练过程中生成主题词;以判别器损失函数和最大化互信息的正则化损失为目标进行训练。本发明对文本主题进行建模,挖掘高质量主题,将互信息最大化技术融入到对抗神经主题建模过程,增强主题多样性,具有更高的主题同一性和多样性指标。

Patent Agency Ranking