一种基于中间人的互联网数据采集方法及系统

    公开(公告)号:CN110781367B

    公开(公告)日:2023-10-20

    申请号:CN201910909270.7

    申请日:2019-09-25

    Abstract: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。

    基于动力学模型的网络突发事件检测方法及系统

    公开(公告)号:CN110704717B

    公开(公告)日:2022-09-27

    申请号:CN201910833905.X

    申请日:2019-09-04

    Abstract: 本发明提出一种基于动力学模型的网络突发事件检测方法及系统,包括:对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到多个结构化事件对应的多个基本事件;以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定网络平台中各基本事件是否为广义突发事件。

    一种基于中间人的互联网数据采集方法及系统

    公开(公告)号:CN110781367A

    公开(公告)日:2020-02-11

    申请号:CN201910909270.7

    申请日:2019-09-25

    Abstract: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。

    基于动力学模型的网络突发事件检测方法及系统

    公开(公告)号:CN110704717A

    公开(公告)日:2020-01-17

    申请号:CN201910833905.X

    申请日:2019-09-04

    Abstract: 本发明提出一种基于动力学模型的网络突发事件检测方法及系统,包括:对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到多个结构化事件对应的多个基本事件;以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定网络平台中各基本事件是否为广义突发事件。

Patent Agency Ranking