基于模糊序列模式发掘的网页内容提取方法

    公开(公告)号:CN106547851B

    公开(公告)日:2020-04-07

    申请号:CN201610911400.7

    申请日:2016-10-19

    Abstract: 本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题,通过相同内容块内容在超文本标记语言中距离较近,不同内容块的内容相距较远的原理,针对网页上的每一个内容模块,分别用一个行文字长度序列的方式来表示,同时越是功能性模块模糊度越低,信息越丰富的内容模块序列模糊度越高。针对不同网站,利用少量给定网页进行训练,得到模糊序列模式,对于来自同一个网站的新页面将利用模糊序列模式来进行匹配,得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性,同时能够将不同类型的内容分开提取。

    基于模糊序列模式发掘的网页内容提取方法

    公开(公告)号:CN106547851A

    公开(公告)日:2017-03-29

    申请号:CN201610911400.7

    申请日:2016-10-19

    Applicant: 贵州大学

    Abstract: 本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题,通过相同内容块内容在超文本标记语言中距离较近,不同内容块的内容相距较远的原理,针对网页上的每一个内容模块,分别用一个行文字长度序列的方式来表示,同时越是功能性模块模糊度越低,信息越丰富的内容模块序列模糊度越高。针对不同网站,利用少量给定网页进行训练,得到模糊序列模式,对于来自同一个网站的新页面将利用模糊序列模式来进行匹配,得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性,同时能够将不同类型的内容分开提取。

    基于HBase的海量传感器数据存储系统及方法

    公开(公告)号:CN106557561A

    公开(公告)日:2017-04-05

    申请号:CN201611005299.5

    申请日:2016-11-16

    Inventor: 黄瑞章 刘博伟

    CPC classification number: G06F17/30339 G06F17/3048 G06F17/30545

    Abstract: 本发明公开了一种基于HBase的海量传感器数据存储系统,本发明基于HBase分布式数据库集群设计了存储海量传感器数据存储系统和方法,对数据接收层进行流量分流,避免了高并发场景下的海量传感器数据阻塞的情况发生;对HBase分布式数据库集群进行适用于存储大规模传感器数据的预分区建表操作,避免了由HBase分布式数据库集群自身引起的数据存储热点问题;对行键和列名进行了适用于存储大规模传感器数据的优化操作,使得海量传感器数据可以按照时间序列的特点连续的存储在HBase分布式数据库集群内,避免了数据存储分散的问题。实现了基于HBase的海量传感器数据的存储。本发明简单易行,使用效果好。

Patent Agency Ranking