一种基于中间人的互联网数据采集方法及系统

    公开(公告)号:CN110781367B

    公开(公告)日:2023-10-20

    申请号:CN201910909270.7

    申请日:2019-09-25

    Abstract: 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。

    一种基于动态代码生成的图计算方法及系统

    公开(公告)号:CN110287378B

    公开(公告)日:2021-10-19

    申请号:CN201910441015.4

    申请日:2019-05-24

    Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287273A

    公开(公告)日:2021-01-29

    申请号:CN202011161426.7

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。

    一种网络事件预警方法及系统

    公开(公告)号:CN111914152A

    公开(公告)日:2020-11-10

    申请号:CN202010615515.8

    申请日:2020-06-30

    Abstract: 本发明提出一种网络事件预警方法及系统,包括:针对现有网络事件预警技术在子指标的计算、指标权重的赋值、预警效果的评价方面缺乏足够客观性,进而影响预警准确率的问题,本发明提出一种网络事件预警方法及系统。在计算子指标方面,本发明充分考虑消息之间的相互影响,利用物理学中的安培定律,让预警结果尽可能地反应整个事件的走向,提升客观性,提高预警准确率。在通过子指标逐级向上计算父指标方面,本发明利用物理学中场的概念来分析指标之间的关系,并借用场的度量方法为子指标赋权重,不需要专家参与,提升赋值过程的客观性,提高预警准确率。在网络事件预警评价方面,本发明借鉴异常检测思想提出客观的预警评价方法,提高评价的准确率。

    一种子话题挖掘方法
    86.
    发明授权

    公开(公告)号:CN106844416B

    公开(公告)日:2019-11-29

    申请号:CN201611024146.5

    申请日:2016-11-17

    Abstract: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。

    基于压缩图的数据存储方法、存储介质、存储装置和服务器

    公开(公告)号:CN110389953A

    公开(公告)日:2019-10-29

    申请号:CN201910508926.4

    申请日:2019-06-12

    Abstract: 本发明涉及一种基于压缩图的数据存储方法、系统和存储介质,该方法包括:步骤100,生成点表逻辑定义,根据该逻辑定义构建点表,并向该点集中插入数据;步骤200,生成边表逻辑定义,根据该逻辑定义构建边表,从所述点表中选择与该边表相关联的点表,并向所述边表中插入数据;步骤300,设置和执行压缩图定义命令,生成所述压缩图的建图逻辑,设置函数获取与所述压缩图定义关联的所述边表,形成边集聚合组,并生成与所述压缩图定义关联的所述点表的代理结构;步骤400,设置和执行压缩图重置命令,根据所述压缩图的建图逻辑构建所述压缩图。本方法降低了多次建图与建多类图的开销,增加了图构建的灵活性与表示性,减少了重复建图的排序工作量。

    一种基于动态代码生成的图计算方法及系统

    公开(公告)号:CN110287378A

    公开(公告)日:2019-09-27

    申请号:CN201910441015.4

    申请日:2019-05-24

    Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。

Patent Agency Ranking