-
公开(公告)号:CN106096063A
公开(公告)日:2016-11-09
申请号:CN201610570978.0
申请日:2016-07-19
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30011 , G06F17/30861
Abstract: 本发明提出一种用于大数据的并行半定义分类方法与系统,涉及互联网行业技术领域,该方法包括串行步骤,获取文档的类别变量z、主题变量y、文档上类别的分布θ、类别上主题的分布π、主题上词的分布φ,结合先验参数α、β、δ,对类别变量z与主题变量y进行迭代采样,直到类别变量z与主题变量y收敛到平稳分布,对主题上词的分布φ、类别上主题的分布π、主题上词的分布φ进行估计,选择主题上词的分布φ中概率最高的一个类别作为文档的类标,并根据类标进行文档分类。本发明解决了海量数据下,传统分类或者半监督聚类难以解决的半定义分类问题。