-
公开(公告)号:CN104392002A
公开(公告)日:2015-03-04
申请号:CN201410779353.6
申请日:2014-12-15
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明涉及一种大规模网页集合近似重复查找的方法,使用文档的点签名来过滤网页内容噪声,结合分区和倒排索引剪枝来完成近似重复查找,使得近似重复查找效率高,仅计算点签名的Jaccard相似度使得方法的复杂度很低。
-
-
公开(公告)号:CN103634394B
公开(公告)日:2016-08-17
申请号:CN201310618731.8
申请日:2013-11-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向数据流处理的弹性可扩展资源管理方法及系统,包括本地管理器实时监控其对应的执行实例的资源利用率和输入负载情况,周期性地向给弹性管理器发送监控报告;所述弹性管理器分析所有本地管理器发送来的监控报告,当发现某一子集群中的某个执行实例出现负载问题时,生成相应的负载均衡策略,启动窗口重构协议或状态重构协议,重新确定上游相关执行实例原来将要发送给出现负载问题的执行实例的元组的去向;本发明所述系统需要具有可扩展性,即可根据当前的数据流负载情况,动态增加、减少节点数量或者在已有节点间均衡负载输入,以实现在保证服务质量的前提下提高资源的利用率。
-
公开(公告)号:CN105528544A
公开(公告)日:2016-04-27
申请号:CN201610023559.5
申请日:2016-01-14
Applicant: 中国科学院信息工程研究所
IPC: G06F21/56
CPC classification number: G06F21/563
Abstract: 本发明公开了一种基于URLs极大模式的恶意URL检测方法。本方法首先给出最基本的两个段模式之间的极大段模式的挖掘,其次是在此基础上给出段模式集合的极大段模式挖掘,然后在此基础上给出段序列模式集合的极大段序列模式的挖掘,再然后给出URL模式集合的极大URL模式的挖掘;最后将挖掘出的URL模式使用公知的有穷自动机方法匹配被检测的URL,若被检测的URL与恶意URL模式匹配,则被判定是恶意的。本发明利用极大模式能够检测出那些新的、未知的恶意URL。
-
公开(公告)号:CN103634394A
公开(公告)日:2014-03-12
申请号:CN201310618731.8
申请日:2013-11-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向数据流处理的弹性可扩展资源管理方法及系统,包括本地管理器实时监控其对应的执行实例的资源利用率和输入负载情况,周期性地向给弹性管理器发送监控报告;所述弹性管理器分析所有本地管理器发送来的监控报告,当发现某一子集群中的某个执行实例出现负载问题时,生成相应的负载均衡策略,启动窗口重构协议或状态重构协议,重新确定上游相关执行实例原来将要发送给出现负载问题的执行实例的元组的去向;本发明所述系统需要具有可扩展性,即可根据当前的数据流负载情况,动态增加、减少节点数量或者在已有节点间均衡负载输入,以实现在保证服务质量的前提下提高资源的利用率。
-
-
-
-