-
公开(公告)号:CN110263153B
公开(公告)日:2021-04-30
申请号:CN201910403543.0
申请日:2019-05-15
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/247 , G06F40/289
Abstract: 本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。
-
公开(公告)号:CN110263153A
公开(公告)日:2019-09-20
申请号:CN201910403543.0
申请日:2019-05-15
Applicant: 北京邮电大学
Abstract: 本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。
-