一种通用论坛正文提取方法

    公开(公告)号:CN107239520B

    公开(公告)日:2020-07-03

    申请号:CN201710378377.4

    申请日:2017-05-25

    Applicant: 东北大学

    Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。

    一种通用论坛正文提取方法

    公开(公告)号:CN107239520A

    公开(公告)日:2017-10-10

    申请号:CN201710378377.4

    申请日:2017-05-25

    Applicant: 东北大学

    Abstract: 本发明涉及一种通用论坛正文提取方法包括如下步骤:提取出网站完整的html代码,探测该网页编码格式,并统一编码为utf8格式;解析html标签类型,获得网页的DOM树,提取标题信息和包含发表时间信息的div标签内容,过滤无用信息后对已提取信息进行分类并生成列表;计算列表数据长度,以时间为标记分类信息并格式化输出。本发明的提取方法通用性强,能够适用于大多数论坛,能够准确提取其主贴、回帖、标题和发帖时间的相应数据字段并格式化输出,使论坛信息得到更好的利用。

Patent Agency Ranking