一种专利文献聚类方法
    1.
    发明公开

    公开(公告)号:CN104881401A

    公开(公告)日:2015-09-02

    申请号:CN201510278103.9

    申请日:2015-05-27

    Inventor: 林鸿飞 孙东普

    Abstract: 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。

    一种专利文献聚类方法
    2.
    发明授权

    公开(公告)号:CN104881401B

    公开(公告)日:2017-10-17

    申请号:CN201510278103.9

    申请日:2015-05-27

    Inventor: 林鸿飞 孙东普

    Abstract: 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。

Patent Agency Ranking