基于语义的信息采集方法及系统

    公开(公告)号:CN103473369A

    公开(公告)日:2013-12-25

    申请号:CN201310452655.8

    申请日:2013-09-27

    Applicant: 清华大学

    Abstract: 本发明涉及数据挖掘技术领域,具体涉及一种基于语义的信息采集方法及系统。该信息采集方法包括步骤:S1.根据网络资源的典型特征,建立网络资源抽象数据模型;S2.借助搜索引擎从互联网采集网络信息,并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理;S3.对格式化处理后的网络信息进行聚类分析,并根据聚类分析结果将所述网络信息划分入对应的话题中,并提取每个话题的标签;S4.对所述步骤S3中处理结果进行可视化展示。本发明由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看,从而可以多维度的对网络信息进行展现,以形象、直观的方式将网络信息呈现给用户,实现了提高用户浏览效率的效果。

Patent Agency Ranking