面向BS架构的数据接口生成方法

    公开(公告)号:CN106528175B

    公开(公告)日:2019-09-13

    申请号:CN201611068280.5

    申请日:2016-11-29

    Applicant: 福州大学

    Abstract: 本发明涉及一种面向BS架构的数据接口生成方法。该方法由三个部分组成:源数据处理,模型到图的转化,API封装;其中,源数据处理是从用户上传的HTTP请求集合中提取出关键信息,建立HTTP请求模型,并对集合进行分类;数据到有向图的转化是为了建立数据之间的关联,根据HTTP请求模型,定义有向图的节点和边的含义,并对图进行优化;API封装是根据有向图中信息,形成请求路径,按照不同功能生成对应API。通过本发明,用户只需要上传数据集,填写所需API信息(包括API名称,所含参数),便可自动封装出特定API。

    基于DOM树抽象的包装器自动生成方法

    公开(公告)号:CN107943929B

    公开(公告)日:2021-09-28

    申请号:CN201711172974.8

    申请日:2017-11-22

    Applicant: 福州大学

    Abstract: 本发明涉及一种基于DOM树抽象的包装器自动生成方法。包装器生成阶段:用户输入网页集合,得到DOM树集合;而后,对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;结构化数据抽取阶段:将待抽取的目标网页解析成DOM树,与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;读取配置文档中的路径对目标DOM树进行抽取。本发明不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。

    基于DOM树抽象的包装器自动生成方法

    公开(公告)号:CN107943929A

    公开(公告)日:2018-04-20

    申请号:CN201711172974.8

    申请日:2017-11-22

    Applicant: 福州大学

    CPC classification number: G06F17/30896

    Abstract: 本发明涉及一种基于DOM树抽象的包装器自动生成方法。包装器生成阶段:用户输入网页集合,得到DOM树集合;而后,对DOM树进行合并,遍历DOM树对相同标签的子节点进行合并,并且针对每个节点进行路径特征标注,最终将DOM树集合转化为合并树集合;对合并树集合进行抽象操作得到抽象树,并将抽象树存入数据库中;根据配置文档确定结构化数据在合并树中的路径特征,将对应的路径特征经过处理后写入文档中,生成包装器;结构化数据抽取阶段:将待抽取的目标网页解析成DOM树,与抽象树进行匹配确定目标网页是否为包装器对应的类型网页;读取配置文档中的路径对目标DOM树进行抽取。本发明不仅能实现自动化生产包装器,并且在准确率和时间性能上也有较好的表现。

    面向多租户的SaaS舆情监控系统及方法

    公开(公告)号:CN105718590A

    公开(公告)日:2016-06-29

    申请号:CN201610054599.6

    申请日:2016-01-27

    Applicant: 福州大学

    CPC classification number: G06F16/958 G06F16/951

    Abstract: 本发明涉及一种面向多租户的SaaS舆情监控系统及方法,包括数据采集与存储模块、基于并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采用基于Single?Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。本发明在多数据源、多租户等方面体现了良好的可扩展性。

    面向信息发布类网站的移动版自动生成的方法

    公开(公告)号:CN106503211B

    公开(公告)日:2019-12-17

    申请号:CN201610953876.7

    申请日:2016-11-03

    Applicant: 福州大学

    Abstract: 本发明涉及一种面向信息发布类网站的移动版自动生成的方法,其包括以下步骤:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;将提取的结构化数据经过适配转化为适应移动端页面展示风格的数据。采用本发明技术方案用户只需要给出该网站的入口地址,就能够自动生成适合手机浏览移动版网站。在这个过程中通过网页爬取,数据提取,网页适配完成来完成移动端页面的生成。本发明极大地较少了开发移动版的成本并且减少了移动版网站的开发周期,具有很强的商业价值。

    面向BS架构的数据接口生成方法

    公开(公告)号:CN106528175A

    公开(公告)日:2017-03-22

    申请号:CN201611068280.5

    申请日:2016-11-29

    Applicant: 福州大学

    Abstract: 本发明涉及一种面向BS架构的数据接口生成方法。该方法由三个部分组成:源数据处理,模型到图的转化,API封装;其中,源数据处理是从用户上传的HTTP请求集合中提取出关键信息,建立HTTP请求模型,并对集合进行分类;数据到有向图的转化是为了建立数据之间的关联,根据HTTP请求模型,定义有向图的节点和边的含义,并对图进行优化;API封装是根据有向图中信息,形成请求路径,按照不同功能生成对应API。通过本发明,用户只需要上传数据集,填写所需API信息(包括API名称,所含参数),便可自动封装出特定API。

    网页结构化数据的信息提取方法

    公开(公告)号:CN107423391B

    公开(公告)日:2020-11-03

    申请号:CN201710605031.3

    申请日:2017-07-24

    Applicant: 福州大学

    Abstract: 本发明公开了一种网页结构化数据的信息提取方法,首先对网页代码进行预处理,去除噪音信息,根据网页布局标签作为节点,通过布局标签的嵌套关系和层次关系,构造其DOM树,并存入List,通过判断分支是否相同对DOM树进行剪枝,形成DOM重构树;然后通过节点路径对节点进行标记,并对两个网页对应的DOM重构树进行对比,确定目标对象所在的特征路径,并产生相应的包装器,实现自动抽取。本发明能自动快速地处理大量WEB内容,提取到正确信息。

    网页结构化数据的信息提取方法

    公开(公告)号:CN107423391A

    公开(公告)日:2017-12-01

    申请号:CN201710605031.3

    申请日:2017-07-24

    Applicant: 福州大学

    Abstract: 本发明公开了一种网页结构化数据的信息提取方法,首先对网页代码进行预处理,去除噪音信息,根据网页布局标签作为节点,通过布局标签的嵌套关系和层次关系,构造其DOM树,并存入List,通过判断分支是否相同对DOM树进行剪枝,形成DOM重构树;然后通过节点路径对节点进行标记,并对两个网页对应的DOM重构树进行对比,确定目标对象所在的特征路径,并产生相应的包装器,实现自动抽取。本发明能自动快速地处理大量WEB内容,提取到正确信息。

    一种基于网页聚类的正文信息提取方法

    公开(公告)号:CN106557565A

    公开(公告)日:2017-04-05

    申请号:CN201611027102.8

    申请日:2016-11-22

    Applicant: 福州大学

    CPC classification number: G06F16/9577 G06F16/35 G06F16/951

    Abstract: 本发明涉及一种基于网页聚类的正文信息提取方法,将网站级别与网页级别相结合,通过网站级别的网页聚类来实现平滑网页之间的差距,再利用网页分块和节点的密度特征来确定该类网页正文的位置,并提取相应的抽取规则。本发明可以有效的提高网页正文内容提取的准确率。

    面向信息发布类网站的移动版自动生成的方法

    公开(公告)号:CN106503211A

    公开(公告)日:2017-03-15

    申请号:CN201610953876.7

    申请日:2016-11-03

    Applicant: 福州大学

    Abstract: 本发明涉及一种面向信息发布类网站的移动版自动生成的方法,其包括以下步骤:利用爬虫技术,根据用户指定转化网站的入口地址,爬取该网站中的所有网页;对爬取网站中的所有网页进行分析,针对每一个网页提取导航栏中的数据和网页中的主要内容;将提取的结构化数据经过适配转化为适应移动端页面展示风格的数据。采用本发明技术方案用户只需要给出该网站的入口地址,就能够自动生成适合手机浏览移动版网站。在这个过程中通过网页爬取,数据提取,网页适配完成来完成移动端页面的生成。本发明极大地较少了开发移动版的成本并且减少了移动版网站的开发周期,具有很强的商业价值。

Patent Agency Ranking