一种面向数据流处理的弹性可扩展资源管理方法及系统

    公开(公告)号:CN103634394B

    公开(公告)日:2016-08-17

    申请号:CN201310618731.8

    申请日:2013-11-28

    Abstract: 本发明涉及一种面向数据流处理的弹性可扩展资源管理方法及系统,包括本地管理器实时监控其对应的执行实例的资源利用率和输入负载情况,周期性地向给弹性管理器发送监控报告;所述弹性管理器分析所有本地管理器发送来的监控报告,当发现某一子集群中的某个执行实例出现负载问题时,生成相应的负载均衡策略,启动窗口重构协议或状态重构协议,重新确定上游相关执行实例原来将要发送给出现负载问题的执行实例的元组的去向;本发明所述系统需要具有可扩展性,即可根据当前的数据流负载情况,动态增加、减少节点数量或者在已有节点间均衡负载输入,以实现在保证服务质量的前提下提高资源的利用率。

    一种基于URLs极大模式的恶意URL检测方法

    公开(公告)号:CN105528544A

    公开(公告)日:2016-04-27

    申请号:CN201610023559.5

    申请日:2016-01-14

    CPC classification number: G06F21/563

    Abstract: 本发明公开了一种基于URLs极大模式的恶意URL检测方法。本方法首先给出最基本的两个段模式之间的极大段模式的挖掘,其次是在此基础上给出段模式集合的极大段模式挖掘,然后在此基础上给出段序列模式集合的极大段序列模式的挖掘,再然后给出URL模式集合的极大URL模式的挖掘;最后将挖掘出的URL模式使用公知的有穷自动机方法匹配被检测的URL,若被检测的URL与恶意URL模式匹配,则被判定是恶意的。本发明利用极大模式能够检测出那些新的、未知的恶意URL。

    一种基于话题模型的网络负面信息影响最小化方法

    公开(公告)号:CN105468681A

    公开(公告)日:2016-04-06

    申请号:CN201510783824.5

    申请日:2015-11-16

    CPC classification number: G06F17/30867 G06Q50/01

    Abstract: 本发明涉及一种基于话题模型的网络负面信息影响最小化方法,包括如下步骤:1)采用有向图表示社交网络中信息的传播,通过话题模型分别计算负面信息的概率分布和每条边上的历史信息的概率分布;2)分别计算负面信息的概率分布和每条边上的历史信息的概率分布的距离,即KL散度d(w,i),其中d表示KL散度的计算结果,w表示历史信息的话题分布,i表示负面信息的话题分布;3)计算和其中b(w)和o(w)分别为中心度和出度入度算法的计算结果,然后从大到小排序,并去掉前k个节点,使负面信息的传播范围最小。本发明对于恶意信息已经爆发的社交网络能进行有效地控制,使负面信息的影响范围大大降低。

    一种乱序数据包字符串匹配方法及系统

    公开(公告)号:CN104796354A

    公开(公告)日:2015-07-22

    申请号:CN201510121507.7

    申请日:2015-03-19

    CPC classification number: H04L49/9057 G06F17/30985 G06F2207/025

    Abstract: 本发明涉及一种乱序数据包字符串匹配方法及系统,包括以下步骤:初始化确定有限状态自动机DFA和模式后缀树PST;初始化缓冲区,逐个接收在网络中传输的、由数据流分割得到的字符串,每个所述数据流由至少两个字符串有序排列组成;逐个获取属于同一个数据流的字符串;如果当前的字符串存在前缀,设置确定有限状态自动机的当前状态;如果当前的字符串存在后缀,将查找状态追加到当前的字符串的末尾,得到合并片段;将合并片段输入到确定有限状态自动机中;存储当前的字符串信息,并让当前的字符串通过。本发明提出的乱序数据包字符串匹配方法,该模型不需要缓存数据包,而只缓存状态,实现了乱序数据包重排的字符串匹配。

    数据流预测方法及装置
    16.
    发明授权

    公开(公告)号:CN102710616B

    公开(公告)日:2015-04-22

    申请号:CN201210155437.3

    申请日:2012-05-18

    Abstract: 本发明涉及一种数据流预测方法及装置。数据流预测方法包括:根据样本数据更新集成模型索引,集成模型索引用于存储关键词与支持向量集合之间的映射关系,支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量;对输入文本进行分词,得到该输入文本的关键词,输入文本为待测数据流;根据更新后的集成模型索引检索包含关键词的支持向量集合,以及该支持向量集合中的支持向量所在SVM分类器的信息;用检索到的支持向量集合中的所有支持向量对输入文本进行预测。本发明的数据流预测方法及装置,基于集成模型索引进行亚线性的在线预测,由于通过倒排表将支持向量按照关键字进行聚集,因而预测速度得到了明显的提升。

    一种基于自动编码机的分布式离群点检测方法及系统

    公开(公告)号:CN104008420A

    公开(公告)日:2014-08-27

    申请号:CN201410225026.6

    申请日:2014-05-26

    Abstract: 本发明涉及一种基于自动编码机的分布式离群点检测方法及系统,包括定义训练数据集和测试数据集;将训练集的训练数据随机分配给若干个计算单元;所有计算单元并行执行,每个计算单元求解编码与解码参数;汇总每个计算单元的编码与解码参数得到最终编码与解码参数,构建一个自复制模型;将自复制模型应用到测试数据集上,并行计算每条测试数据的重建误差;按照重建误差降序排列测试数据,重建误差大于预定阈值的测试数据为离群点;本发明所述方法处理需要的总时间与处理的样本个数之间是独立的,仅仅取决于参数求解需要达到的精度;本发明非常适合基于MapReduce框架来处理大规模数据集上的离群点检测,具有良好的伸缩性与扩展性。

    一种面向数据流处理的弹性可扩展资源管理方法及系统

    公开(公告)号:CN103634394A

    公开(公告)日:2014-03-12

    申请号:CN201310618731.8

    申请日:2013-11-28

    Abstract: 本发明涉及一种面向数据流处理的弹性可扩展资源管理方法及系统,包括本地管理器实时监控其对应的执行实例的资源利用率和输入负载情况,周期性地向给弹性管理器发送监控报告;所述弹性管理器分析所有本地管理器发送来的监控报告,当发现某一子集群中的某个执行实例出现负载问题时,生成相应的负载均衡策略,启动窗口重构协议或状态重构协议,重新确定上游相关执行实例原来将要发送给出现负载问题的执行实例的元组的去向;本发明所述系统需要具有可扩展性,即可根据当前的数据流负载情况,动态增加、减少节点数量或者在已有节点间均衡负载输入,以实现在保证服务质量的前提下提高资源的利用率。

    数据流预测方法及装置
    19.
    发明公开

    公开(公告)号:CN102710616A

    公开(公告)日:2012-10-03

    申请号:CN201210155437.3

    申请日:2012-05-18

    Abstract: 本发明涉及一种数据流预测方法及装置。数据流预测方法包括:根据样本数据更新集成模型索引,集成模型索引用于存储关键词与支持向量集合之间的映射关系,支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量;对输入文本进行分词,得到该输入文本的关键词,输入文本为待测数据流;根据更新后的集成模型索引检索包含关键词的支持向量集合,以及该支持向量集合中的支持向量所在SVM分类器的信息;用检索到的支持向量集合中的所有支持向量对输入文本进行预测。本发明的数据流预测方法及装置,基于集成模型索引进行亚线性的在线预测,由于通过倒排表将支持向量按照关键字进行聚集,因而预测速度得到了明显的提升。

    一种通用的条款与文档匹配方法

    公开(公告)号:CN111209375A

    公开(公告)日:2020-05-29

    申请号:CN202010031467.8

    申请日:2020-01-13

    Abstract: 本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。

Patent Agency Ranking