-
公开(公告)号:CN107808000B
公开(公告)日:2020-05-22
申请号:CN201711115185.0
申请日:2017-11-13
Applicant: 哈尔滨工业大学(威海) , 威海天之卫网络空间安全科技有限公司
IPC: G06F16/951 , G06F16/2458 , G06F16/22 , G06F16/28 , G06F16/25
Abstract: 本发明涉及一种暗网数据采集与抽取系统及方法,包括依次连接的暗网站点发现模块、暗网数据爬取模块、页面解析与内容抽取模块、数据融合与存储模块;暗网站点发现模块获取多源数据中的暗网url;暗网数据爬取模块配置Tor服务,修改Nutch的配置,使其与socks协议交互,进行数据的爬取;页面解析与内容抽取模块进行页面解析、页面向量化、特征码生成、相似度计算与模板集更新、页面内容抽取;数据融合与存储模块采用数据对齐策略对抽取得到的内容重组,将内容相近的数据记录融合存入数据库中。本发明实现了完整的页面保存到内容抽取的系统设计流程,为暗网中违法交易活动的发现与暗网知识图谱的建立提供数据支撑。
-
公开(公告)号:CN107808000A
公开(公告)日:2018-03-16
申请号:CN201711115185.0
申请日:2017-11-13
Applicant: 哈尔滨工业大学(威海) , 威海天之卫网络空间安全科技有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种暗网数据采集与抽取系统及方法,包括依次连接的暗网站点发现模块、暗网数据爬取模块、页面解析与内容抽取模块、数据融合与存储模块;暗网站点发现模块获取多源数据中的暗网url;暗网数据爬取模块配置Tor服务,修改Nutch的配置,使其与socks协议交互,进行数据的爬取;页面解析与内容抽取模块进行页面解析、页面向量化、特征码生成、相似度计算与模板集更新、页面内容抽取;数据融合与存储模块采用数据对齐策略对抽取得到的内容重组,将内容相近的数据记录融合存入数据库中。本发明实现了完整的页面保存到内容抽取的系统设计流程,为暗网中违法交易活动的发现与暗网知识图谱的建立提供数据支撑。
-