基于多标签演变高维文本流的在线半监督分类算法

    公开(公告)号:CN116861287A

    公开(公告)日:2023-10-10

    申请号:CN202310752440.1

    申请日:2023-06-25

    Abstract: 本发明提供了一种基于多标签演化高维文本流的在线半监督分类算法,其特征在于:包括模型初始化、分类阶段和模型维护;取Dinit个带标签的文档,并为每个标签创建Zmin个微簇,微簇包含文档;初始模型对每个到来的文档流进行预测,对于每个到来的文档,模型计算簇‑文档的概率,并基于概率得分,选择k个最近的微簇Zd;此时,需要预测的标签数Y等于具有高于Zd分布均值的微簇的数量lcount;当大于平均值的簇数量为一,则预测在最近的簇中有高簇数量的标签,否侧比较每个标签的簇概率之和,并用最近标签的标签共现得分进行预测;在预测标签后,如果到来的文档没有标签,则将其添加到每个预测标签的最近微簇中,否则将到达的文档添加到地面真实标签的最近微簇中。

Patent Agency Ranking