-
公开(公告)号:CN109753596A
公开(公告)日:2019-05-14
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。