一种基于LDA和D2V进行摘要抽取的文本生成方法

    公开(公告)号:CN111159393B

    公开(公告)日:2023-10-10

    申请号:CN201911391922.9

    申请日:2019-12-30

    Abstract: 本发明提供一种基于LDA和D2V进行摘要抽取的文本生成方法,利用原本用于文章分类的LDA模型来做句子的主题分类,然后将每个主题的句子利用D2V模型继续句子向量化,然后计算句子的熵信息,选择最大熵信息的一个句子作为摘要句子。本发明相对于抽取数目由人工确定的方法比较而言,是由计算机来对抽取摘要句子的数目进行调整,总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。

    基于融合BTM模型的短文本主题聚类方法

    公开(公告)号:CN109726394A

    公开(公告)日:2019-05-07

    申请号:CN201811546170.4

    申请日:2018-12-18

    Abstract: 本发明公开了一种基于融合BTM模型的短文本主题聚类方法,属于数据聚类技术领域。本发明首先对待聚类的短文本进行文本预处理,得到数据集D;然后分别提取基于BTM模型、VSM模型的文本向量;在对数据集D进行k-means聚类时,基于本发明所设置的估计聚类数k方式所获得的聚类数,进行k聚类处理,且聚类处理时采用的聚类标准为:基于两个文本向量所分别计算的任意两个文本间的距离的加权和。本发明结合BTM模型和VSM模型实现对短文本主题的聚类处理,以提高聚类效果;同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。

    一种基于LDA和D2V进行摘要抽取的文本生成方法

    公开(公告)号:CN111159393A

    公开(公告)日:2020-05-15

    申请号:CN201911391922.9

    申请日:2019-12-30

    Abstract: 本发明提供一种基于LDA和D2V进行摘要抽取的文本生成方法,利用原本用于文章分类的LDA模型来做句子的主题分类,然后将每个主题的句子利用D2V模型继续句子向量化,然后计算句子的熵信息,选择最大熵信息的一个句子作为摘要句子。本发明相对于抽取数目由人工确定的方法比较而言,是由计算机来对抽取摘要句子的数目进行调整,总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。

    一种MB-kmeans++聚类方法及基于其的用户会话聚类方法

    公开(公告)号:CN109685128A

    公开(公告)日:2019-04-26

    申请号:CN201811546155.X

    申请日:2018-12-18

    CPC classification number: G06K9/6223 G06K9/6256

    Abstract: 本发明公开了一种MB-kmeans++聚类方法及基于其的用户会话聚类方法,属于数据挖掘技术领域。本发明的聚类方法,首先采用平均距离最远原则选取k个初始聚类中心,然后基于当前随机选择的子集合对k个聚类中心进行位置的迭代更新处理,直到质心稳定或者达到最大迭代次数,最后再基于最终的聚类中心对待聚类数据进行k聚类处理,得到聚类结果。本发明的聚类处理方法能适应高维度稀疏矩阵的处理,在较大数据量的情况下能显著缩短处理时间。本发明的用户会话聚类方法为:在基于原始日志数据获取到各用户会话之后,对其进行优化处理:对庞大的页面维度进行缩减,对用户会话特征进行降维,再采用本发明的聚类方法进行聚类处理,得到具有相似访问行为用户。

Patent Agency Ranking