基于深度学习和主题模型的短文本相似度计算方法

    公开(公告)号:CN114897078A

    公开(公告)日:2022-08-12

    申请号:CN202210544327.X

    申请日:2022-05-19

    Applicant: 辽宁大学

    Abstract: 基于深度学习和主题模型的短文本相似度计算方法,属于文本相似度匹配技术领域,要解决的问题是如何通过深度学习网络和LDA主题模型准确实现短文本相似度计算。首先使用BERT对输入模型的多段文本分别进行分词及向量转换,然后将分词后的词向量分别输入到深度学习模型和LDA主题模型。在深度学习模型内部,先利用双向LSTM网络提取单词的上下文信息;再利用1D卷积神经网络将上下文信息与词嵌入信息进行信息融合;最后使用全局最大池化提取关键信息。在LDA主题模型内部,采用吉布斯抽样进行主题提取,提取每段文本的感情色彩。根据两个模型提取到的特征,通过混合型文本语义相似度计算方法计算获得两段文本之间的相似度。

Patent Agency Ranking