-
公开(公告)号:CN104881401A
公开(公告)日:2015-09-02
申请号:CN201510278103.9
申请日:2015-05-27
Applicant: 大连理工大学
IPC: G06F17/27
Abstract: 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。
-
公开(公告)号:CN104881401B
公开(公告)日:2017-10-17
申请号:CN201510278103.9
申请日:2015-05-27
Applicant: 大连理工大学
IPC: G06F17/27
Abstract: 一种专利文献聚类方法,包括以下步骤:S1、语料集采集及预处理;S2、聚类分析语料的特征词提取;S3、基于词向量的聚类分析数据专利向量表示;S4、聚类;S5、聚类结果评价。本发明的专利文献聚类方法综合考虑了专利文献的标题和摘要信息,通过将专利摘要信息从不同角度进行利用,考虑专利摘要文本的整体信息,同时考虑专利摘要中属性和属性值的信息,充分挖掘了专利文本摘要中隐含的语义信息;充分利用大规模语料中隐藏的信息,利用大规模的语料进行特征训练,将词语表示成低纬度的向量形式,避免了维灾难的同时更好地提取了文本中的信息;设置不同的权重,将标题、摘要和摘要的属性值对三种形式的数据进行融合,得到很好的专利聚类效果。
-