一种基于Siamese网络的话题检测方法

    公开(公告)号:CN111444336A

    公开(公告)日:2020-07-24

    申请号:CN202010116957.8

    申请日:2020-02-25

    Abstract: 本发明公开了一种基于Siamese网络的话题检测方法,该方法以成对新闻文本的话题标签作为监督信息,引入Siamese网络,将其与LSTM网络相结合,引入余弦距离取代Siamese网络中原有欧氏距离来衡量文本相似度,利用Siamese网络衡量两个输入数据的相似程度的特性,根据文本相似程度,将用word2vec与词性特征表示的输入数据映射到维度较低的新的空间,属于同一话题的数据,在新空间的距离较近,实现对新闻文本数据的话题特征提取,解决了TF-IDF模型数据维度高、数据稀疏的问题,有效提高了后期文本聚类结果的准确率。

Patent Agency Ranking