一种基于深度语义特征学习的短文本聚类方法

    公开(公告)号:CN104915386A

    公开(公告)日:2015-09-16

    申请号:CN201510270028.1

    申请日:2015-05-25

    CPC classification number: G06F17/30705 G06F17/2785

    Abstract: 本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。

    一种基于多粒度主题模型的短文本哈希学习方法

    公开(公告)号:CN104408153B

    公开(公告)日:2018-07-31

    申请号:CN201410729347.X

    申请日:2014-12-03

    Abstract: 本发明公开了种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。

    融合隐式语义特征的短文本哈希学习方法

    公开(公告)号:CN104657350B

    公开(公告)日:2017-06-09

    申请号:CN201510096518.4

    申请日:2015-03-04

    Abstract: 本发明提供的融合隐式语义特征的短文本哈希学习方法,包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从训练文本中获取词特征和位置特征,根据词特征和位置特征通过查表获取对应的词向量和位置向量;将词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将低维二值码进行训练得到更新的卷积神经网络模型;利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。本发明可以获得查询文本的语义相似文本。

    一种基于深度语义特征学习的短文本聚类方法

    公开(公告)号:CN104915386B

    公开(公告)日:2018-04-27

    申请号:CN201510270028.1

    申请日:2015-05-25

    Abstract: 本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。

    融合隐式语义特征的短文本哈希学习方法

    公开(公告)号:CN104657350A

    公开(公告)日:2015-05-27

    申请号:CN201510096518.4

    申请日:2015-03-04

    Abstract: 本发明提供的融合隐式语义特征的短文本哈希学习方法,包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从训练文本中获取词特征和位置特征,根据词特征和位置特征通过查表获取对应的词向量和位置向量;将词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将低维二值码进行训练得到更新的卷积神经网络模型;利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。本发明可以获得查询文本的语义相似文本。

    一种基于多粒度主题模型的短文本哈希学习方法

    公开(公告)号:CN104408153A

    公开(公告)日:2015-03-11

    申请号:CN201410729347.X

    申请日:2014-12-03

    CPC classification number: G06F17/30628 G06F17/30663

    Abstract: 本发明公开了一种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。

Patent Agency Ranking