面向大规模分类体系的短文本标签方法、系统、装置

    公开(公告)号:CN110059181A

    公开(公告)日:2019-07-26

    申请号:CN201910202727.0

    申请日:2019-03-18

    Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。

    数据挖掘的方法和装置
    4.
    发明公开

    公开(公告)号:CN105653538A

    公开(公告)日:2016-06-08

    申请号:CN201410642239.9

    申请日:2014-11-13

    Abstract: 一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。

    面向多级标签的文本分类方法、装置、设备及存储介质

    公开(公告)号:CN114691866A

    公开(公告)日:2022-07-01

    申请号:CN202210225366.3

    申请日:2022-03-09

    Abstract: 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,可减轻对人工标注标签的依赖,降低人工标注和标签体系的维护成本,提高标签标注的准确率,使文本分类结果更准确。

    数据挖掘的方法和装置
    9.
    发明授权

    公开(公告)号:CN105653538B

    公开(公告)日:2019-12-20

    申请号:CN201410642239.9

    申请日:2014-11-13

    Abstract: 一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。

Patent Agency Ranking