一种用于科技信息垂直搜索的异构数据分析方法

    公开(公告)号:CN103984700A

    公开(公告)日:2014-08-13

    申请号:CN201410150100.2

    申请日:2014-04-15

    CPC classification number: G06F17/30598 G06F17/30336

    Abstract: 本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:预先建立聚类特征集N;获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;对结构化数据集Q进行分析、优化,得到结构化数据Q2;根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W。本发明提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。

    一种用于科技信息垂直搜索的异构数据分析方法

    公开(公告)号:CN103984700B

    公开(公告)日:2017-09-26

    申请号:CN201410150100.2

    申请日:2014-04-15

    Abstract: 本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:预先建立聚类特征集N;获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;以关键词作为基础特征,采用k‑means算法进行聚类,得到聚类集C;根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;对结构化数据集Q进行分析、优化,得到结构化数据Q2;根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W。本发明提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。

Patent Agency Ranking