-
公开(公告)号:CN103984700A
公开(公告)日:2014-08-13
申请号:CN201410150100.2
申请日:2014-04-15
Applicant: 厦门产业技术研究院
IPC: G06F17/30
CPC classification number: G06F17/30598 , G06F17/30336
Abstract: 本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:预先建立聚类特征集N;获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;对结构化数据集Q进行分析、优化,得到结构化数据Q2;根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W。本发明提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
-
公开(公告)号:CN103984700B
公开(公告)日:2017-09-26
申请号:CN201410150100.2
申请日:2014-04-15
Applicant: 厦门产业技术研究院
IPC: G06F17/30
Abstract: 本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:预先建立聚类特征集N;获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;以关键词作为基础特征,采用k‑means算法进行聚类,得到聚类集C;根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;对结构化数据集Q进行分析、优化,得到结构化数据Q2;根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W。本发明提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
-