基于语义嵌入聚类正则化和多样性一致损失的主题建模方法

    公开(公告)号:CN118133840A

    公开(公告)日:2024-06-04

    申请号:CN202410254291.0

    申请日:2024-03-06

    Abstract: 本发明涉及基于语义嵌入聚类正则化和多样性一致损失的主题建模方法。该方法首先将文档数据集转化为词袋表示,并通过语义嵌入层得到文档的语义嵌入。接着,将语义嵌入与词袋表示拼接后输入编码器,得到文档的主题分布。然后,在编码过程中,采用多元高斯分布作为隐变量的先验分布,并生成潜在样本向量。为了约束主题单词分布,引入嵌入聚类正则化,通过最优运输问题找到最优聚类软分配,得到主题嵌入和单词嵌入。并对主题和单词嵌入进行建模,得到主题单词分布,并加入辅助的多样性一致损失。最后,根据文档的主题分布和主题单词分布,从多项式分布中采样重构文档,计算文档重构损失和分布差异。通过迭代更新模型参数,优化模型效果。

Patent Agency Ranking