一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287274A

    公开(公告)日:2021-01-29

    申请号:CN202011162449.X

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(URL)与节点编号之间的匹配关系形成的哈希表,创建网站的全局拓扑结构;步骤400,将网页数据特征以及网站的全局拓扑结构输入图卷积神经网络进行图卷积神经网络的训练,得到网站列表页面分类器;步骤500,获取待分类的网站网页,分别根据待分类的网站网页的网页数据特征和网站的全局拓扑结构,并将待分类的网站网页的网页数据特征和网站的全局拓扑结构输入网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    大规模网络数据的多信息来源采集方法和系统

    公开(公告)号:CN109840298A

    公开(公告)日:2019-06-04

    申请号:CN201811637902.0

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287273A

    公开(公告)日:2021-01-29

    申请号:CN202011161426.7

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。

Patent Agency Ranking