面向多源信息的混合文本话题发现方法

    公开(公告)号:CN110263153B

    公开(公告)日:2021-04-30

    申请号:CN201910403543.0

    申请日:2019-05-15

    Abstract: 本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。

    面向多源信息的混合文本话题发现方法

    公开(公告)号:CN110263153A

    公开(公告)日:2019-09-20

    申请号:CN201910403543.0

    申请日:2019-05-15

    Abstract: 本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。

Patent Agency Ranking