-
公开(公告)号:CN108153851B
公开(公告)日:2021-06-18
申请号:CN201711397820.9
申请日:2017-12-21
Applicant: 北京工业大学
IPC: G06F16/951 , G06F16/957 , G06F16/34
Abstract: 本发明提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法,用于对主题帖标题,作者,发帖时间和正文的提取,本发明抽取方法满足当今主流论坛的网页结构,克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。
-