大规模网络数据的多信息来源采集方法和系统

    公开(公告)号:CN109840298B

    公开(公告)日:2021-09-24

    申请号:CN201811637902.0

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

    大规模网络数据的多信息来源采集方法和系统

    公开(公告)号:CN109840298A

    公开(公告)日:2019-06-04

    申请号:CN201811637902.0

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

    一种面向网络话题的热度评价方法

    公开(公告)号:CN104615685B

    公开(公告)日:2018-01-26

    申请号:CN201510032875.4

    申请日:2015-01-22

    Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。

    一种面向网络话题的热度评价方法

    公开(公告)号:CN104615685A

    公开(公告)日:2015-05-13

    申请号:CN201510032875.4

    申请日:2015-01-22

    Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。

    以PDF文本作为掩体的信息嵌入方法

    公开(公告)号:CN101673334B

    公开(公告)日:2013-04-03

    申请号:CN200910204408.X

    申请日:2004-12-09

    Abstract: 本发明提供一种以一类PDF文本作为掩体的信息嵌入方法,包括:根据嵌入信息生成标识串FlagStr1、标识串FlagStr2,根据隐写密钥生成替换数字串;在所述标识串FlagStr2前加“0.”,将该标识串转化为(0,1)间的实数;构造两个Logistic混沌序列密码生成器Chao1和Chao2;遍历并替换PDF文件的所有TJ操作对象中的数字;将包含完整嵌入信息的PDF文件转换为隐写文件。本发明还提供了一种以一类PDF文本作为掩体的信息提取方法。

    识别恶意程序的方法及系统

    公开(公告)号:CN101944167A

    公开(公告)日:2011-01-12

    申请号:CN201010297048.5

    申请日:2010-09-29

    Abstract: 本发明一种识别恶意程序的方法和系统,方法包括:步骤1,获取计算机系统中所有进程的信息和进程行为,根据进程之间的父子关系建立进程关系树,对应每个进程保存进程的信息和进程行为的列表;步骤2,将父进程的进程行为列表中的进程行为分类,按进程关系树从上到下的顺序,依据分类将父进程信息分配到子进程;步骤3,按进程关系树和进程信息进行符号化,依据预设的恶意行为阈值判断出恶意程序,将恶意程序在计算机系统中运行,得到用于判断恶意程序的专家系统;步骤4,当新程序进程产生时,利用专家系统判断新程序是否为恶意程序。本发明的实现复杂度相对于现有技术较低,能够提高效率。

    以一类PDF文本作为掩体的信息嵌入和提取方法

    公开(公告)号:CN101673334A

    公开(公告)日:2010-03-17

    申请号:CN200910204408.X

    申请日:2004-12-09

    Abstract: 本发明提供一种以一类PDF文本作为掩体的信息嵌入方法,包括:根据嵌入信息生成标识串FlagStr1、标识串FlagStr2,根据隐写密钥生成替换数字串;在所述标识串FlagStr2前加“0.”,将该标识串转化为(0,1)间的实数;构造两个Logistic混沌序列密码生成器Chao1和Chao2;遍历并替换PDF文件的所有TJ操作对象中的数字;将包含完整嵌入信息的PDF文件转换为隐写文件。本发明还提供了一种以一类PDF文本作为掩体的信息提取方法。

    快速内容分析的多关键词匹配方法

    公开(公告)号:CN1270258C

    公开(公告)日:2006-08-16

    申请号:CN02157881.8

    申请日:2002-12-20

    Abstract: 本发明是一种基于快速内容分析的多关键词匹配方法。该方法根据关键词中的每个字符的出现频率,构建哈夫曼编码,再转化成整数编码,形成检测表,再通过计算直接跳跃距离来加快匹配速度,从而从整体上提高多关键词匹配的速度。与传统的文件内容分析相比,本发明的特点是:针对大量短关键词集合设计了一种新的基于哈夫曼编码的多关键词匹配算法(Huff-Match)。使用这种新算法,提高了内容分析系统的性能。本发明适用于高性能网络信息过滤、入侵检测、信息监控、病毒检测等领域。

Patent Agency Ranking