一种面向钓鱼URL检测的相似样本集构造方法

    公开(公告)号:CN107798080A

    公开(公告)日:2018-03-13

    申请号:CN201710952357.3

    申请日:2017-10-13

    Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。

    基于图的最大紧密度划分的复合短语无监督识别方法

    公开(公告)号:CN106649265A

    公开(公告)日:2017-05-10

    申请号:CN201611053116.7

    申请日:2016-11-25

    CPC classification number: G06F17/277 G06F17/2705

    Abstract: 本发明涉及一种基于图的最大紧密度划分的复合短语无监督识别方法。该方法包括以下步骤:1)采用词性标注工具对输入语料进行词性标注和分词;2)将分词后的输入序列映射到有序的图结构中,将语义紧密度高的词语划分到一个分段内,并使得整个图的紧密度之和最大;3)通过验证各分段是否包含特征词,实现候选复合短语的最终识别。本发明能够自动识别科技类复合短语,省时省力,相比于传统的有监督方法,不需要大量标注语料,便于在线部署应用,是一种高效的科技类复合短语识别方法。

    一种通信网络模拟数据生成方法

    公开(公告)号:CN103763151B

    公开(公告)日:2017-01-18

    申请号:CN201410005380.8

    申请日:2014-01-06

    Abstract: 本发明涉及一种通信网络模拟数据生成方法,包括获取一个通讯网络预定量的真实数据,并按预定规则划分为一系列网络快照,记为训练集G;依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度;根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据;本发明通过引入活跃度这一隐含属性,提出一种线性的通信网络生成算法,利用已有的通信网络数据来快速生成大量模拟通信网络数据,同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。

    一种面向通信网络的用户行为模式挖掘方法及系统

    公开(公告)号:CN103744994B

    公开(公告)日:2016-11-16

    申请号:CN201410030664.2

    申请日:2014-01-22

    Abstract: 本发明涉及一种面向通信网络的用户行为模式挖掘方法及系统,包括:获取一系列网络快照,根据活跃度确定研究对象,确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵,进而计算基准特征矩阵;对基准特征矩阵和每个网络快照的特征矩阵做标准化处理,分解标准化基准特征矩阵得到模元矩阵和系数矩阵;利用每个网络快照的标准化特征矩阵和模元矩阵计算每个网络快照中所有研究对象的行为模式矩阵,即本发明采用“相关特征‑模元‑行为模式”的三元对应关系表示用户行为模式,为用户的通信行为模式提供统一的表示方法,在用户量大的情况下用户间的模式对比清晰明了,有助于方便正确地检测数据集中用户行为模式的变化情况。

    一种动态通信网络构建方法及装置

    公开(公告)号:CN103336865B

    公开(公告)日:2016-09-07

    申请号:CN201310258432.8

    申请日:2013-06-26

    Abstract: 本发明涉及一种动态通信网络构建方法及装置。动态通信网络构建方法,包括:步骤一,获取通信网络在当前时间段t内的网络快照gt和通信网络图Gt‑1,Gt‑1由前t‑1个时间段的网络快照叠加得到,G1=g1,t为自然数,且t大于1;步骤二,根据步骤一获取的网络快照gt和通信网络图Gt‑1以及可变参数β构建通信网络图Gt,Gt=βGt‑1+(1‑β)gt,其中,β=Sim(Gt‑1,gt),β大于或等于0且小于或等于1,函数Sim用于计算两个图的相似度,函数Sim的返回值随两个图的变化剧烈程度增大而减小。本发明的动态通信网络构建方法及装置使得使用本发明构建的通信网络图精确度更高,更接近真实情况。

    一种基于TCP/IP侧信道的匿名网络用户溯源方法

    公开(公告)号:CN105915505A

    公开(公告)日:2016-08-31

    申请号:CN201610195866.1

    申请日:2016-03-31

    CPC classification number: H04L63/0421 H04L63/1441 H04L63/1466 H04L2463/146

    Abstract: 本发明提出一种基于TCP/IP侧信道的匿名网络用户溯源方法,包括以下步骤:1)在关键节点部署流量监控系统;2)根据匿名网络流量特征对流量监控系统所监控的流量进行筛选获得进入匿名网络的用户流量;通过匿名网络中继节点获得匿名网络流出的流量;3)同时提取进入匿名网络的用户流量和匿名网络流出的流量的TCP/IP协议侧信道信息;4)根据TCP/IP侧信道信息关联匿名网络用户和其访问的服务器,破解其匿名性。可以广泛用于打击利用匿名网络的犯罪。

    一种基于对等网络实现的隐蔽匿名通信方法

    公开(公告)号:CN103475649B

    公开(公告)日:2016-03-16

    申请号:CN201310386340.8

    申请日:2013-08-30

    Abstract: 本发明涉及一种基于对等网络的隐蔽匿名通信方法,包括隐蔽握手和数据交换两个阶段,其中隐蔽握手阶段包括通信发起端在大规模P2P对等网络中秘密的找到另一通信端,并秘密地实现相互认证,以及协商数据通道接洽地点;数据交换阶段包括通信双方通过协商好的数据通道接洽地点实现数据交换,而非通信双方直接交互,其中,进行数据交互时,通信发起端通过协商的数据通道接洽地点衍生若干子数据通道接洽地点,并将待发送的文件分割成若干个分片文件,将各分片文件映射到各子数据通道接洽地点,另一通信端到相应的子数据通道接洽地点获取所需的分片文件,即可拼接成原文件;本方法可提供匿名文件分享、有效保护用户隐私,实现秘密通信。

    一种网络安全日志模板抽取方法及装置

    公开(公告)号:CN105049247A

    公开(公告)日:2015-11-11

    申请号:CN201510391607.1

    申请日:2015-07-06

    CPC classification number: H04L41/069 H04L63/20

    Abstract: 本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。具体地,采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类,利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识,可以自动获取网络安全日志格式的模板,能够减小系统负载,提高运算效率和准确性。

    一种开放式的多源数据采集系统及方法

    公开(公告)号:CN104111983A

    公开(公告)日:2014-10-22

    申请号:CN201410306336.0

    申请日:2014-06-30

    CPC classification number: G06F17/30557

    Abstract: 本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。

Patent Agency Ranking