-
公开(公告)号:CN106126654B
公开(公告)日:2019-10-18
申请号:CN201610479968.6
申请日:2016-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/953 , G06F16/9535 , G06Q50/00
Abstract: 本发明提供一种基于用户名相似度的跨网站用户关联方法,步骤包括:1)对多个用户名中的字符进行过滤,仅保留英文字母和数字;2)找出上述处理过的用户名的特征,并获取该特征的自信息值,根据该自信息值得到自信息向量;3)根据上述自信息向量,得到所述多个用户名间的相似度,如果该相似度大于给定的阈值τ,则判断所述多个用户名属于同一用户。本方法通过多个用户名间的相似度来判断其是否属于同一用户,对属于同一用户的不同网站上的账户可实现关联。
-
公开(公告)号:CN110020190A
公开(公告)日:2019-07-16
申请号:CN201810727300.8
申请日:2018-07-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F17/27 , G06N3/04
Abstract: 本发明公开了一种基于多示例学习的可疑威胁指标验证方法及系统。本方法为:对各可疑威胁指标相关的情报信息文本内容进行处理,生成含有原语义信息的词序列;对于每一所述可疑威胁指标,选择该可疑威胁指标对应的多个处理后的词序列,应用多示例学习算法对选取的各所述可疑指标对应的词序列进行训练并生成一多示例学习验证模型;采用自然语言处理技术对待测可疑威胁指标的情报信息文本进行处理,生成该待测可以威胁指标对应的词序列;然后利用所述多示例学习验证模型对该待测可疑威胁指标对应的词序列进行预测验证,确定该待预测可疑威胁指标是否为恶意威胁指标。本发明可高效准确地完成对可疑威胁指标的验证。
-
公开(公告)号:CN105049247B
公开(公告)日:2019-04-26
申请号:CN201510391607.1
申请日:2015-07-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。具体地,采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类,利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识,可以自动获取网络安全日志格式的模板,能够减小系统负载,提高运算效率和准确性。
-
公开(公告)号:CN108921184A
公开(公告)日:2018-11-30
申请号:CN201810350028.6
申请日:2018-04-18
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种通用的网页类型判定方法,其步骤包括:对网页先进行预处理,再抓取该网页的图像;对图像进行规范化处理,包括将图像缩放至可识别其原有视觉块结构的最小程度并统一宽高尺寸;在不破坏图像原有视觉块结构的前提下对图像进行信息增强,得到图像数据集;将上述图像数据集输入到一用于判定网页类型的模型中,对该模型进行训练;通过上述预处理和规范化处理,获取目标网页的图像,将该图像输入到上述经过训练的模型中,判定该目标网页的类型。
-
公开(公告)号:CN107798080A
公开(公告)日:2018-03-13
申请号:CN201710952357.3
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。
-
公开(公告)号:CN106649265A
公开(公告)日:2017-05-10
申请号:CN201611053116.7
申请日:2016-11-25
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/277 , G06F17/2705
Abstract: 本发明涉及一种基于图的最大紧密度划分的复合短语无监督识别方法。该方法包括以下步骤:1)采用词性标注工具对输入语料进行词性标注和分词;2)将分词后的输入序列映射到有序的图结构中,将语义紧密度高的词语划分到一个分段内,并使得整个图的紧密度之和最大;3)通过验证各分段是否包含特征词,实现候选复合短语的最终识别。本发明能够自动识别科技类复合短语,省时省力,相比于传统的有监督方法,不需要大量标注语料,便于在线部署应用,是一种高效的科技类复合短语识别方法。
-
公开(公告)号:CN106569997A
公开(公告)日:2017-04-19
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN103763151B
公开(公告)日:2017-01-18
申请号:CN201410005380.8
申请日:2014-01-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种通信网络模拟数据生成方法,包括获取一个通讯网络预定量的真实数据,并按预定规则划分为一系列网络快照,记为训练集G;依据活跃度等级对训练集G进行训练,得到通信网络的各个分布参数,其中活跃度等级为节点作为发信者在训练集的各快照中出现的频度;根据通信网络的分布参数随机生成一系列模拟快照G'n,构成所需的通信网络模拟数据;本发明通过引入活跃度这一隐含属性,提出一种线性的通信网络生成算法,利用已有的通信网络数据来快速生成大量模拟通信网络数据,同时能保证生成的模拟网络既能体现通信网络的宏观性质又可保留个体的通信行为特征。
-
公开(公告)号:CN103744994B
公开(公告)日:2016-11-16
申请号:CN201410030664.2
申请日:2014-01-22
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种面向通信网络的用户行为模式挖掘方法及系统,包括:获取一系列网络快照,根据活跃度确定研究对象,确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵,进而计算基准特征矩阵;对基准特征矩阵和每个网络快照的特征矩阵做标准化处理,分解标准化基准特征矩阵得到模元矩阵和系数矩阵;利用每个网络快照的标准化特征矩阵和模元矩阵计算每个网络快照中所有研究对象的行为模式矩阵,即本发明采用“相关特征‑模元‑行为模式”的三元对应关系表示用户行为模式,为用户的通信行为模式提供统一的表示方法,在用户量大的情况下用户间的模式对比清晰明了,有助于方便正确地检测数据集中用户行为模式的变化情况。
-
公开(公告)号:CN103336865B
公开(公告)日:2016-09-07
申请号:CN201310258432.8
申请日:2013-06-26
Applicant: 中国科学院信息工程研究所
IPC: G06F17/50
Abstract: 本发明涉及一种动态通信网络构建方法及装置。动态通信网络构建方法,包括:步骤一,获取通信网络在当前时间段t内的网络快照gt和通信网络图Gt‑1,Gt‑1由前t‑1个时间段的网络快照叠加得到,G1=g1,t为自然数,且t大于1;步骤二,根据步骤一获取的网络快照gt和通信网络图Gt‑1以及可变参数β构建通信网络图Gt,Gt=βGt‑1+(1‑β)gt,其中,β=Sim(Gt‑1,gt),β大于或等于0且小于或等于1,函数Sim用于计算两个图的相似度,函数Sim的返回值随两个图的变化剧烈程度增大而减小。本发明的动态通信网络构建方法及装置使得使用本发明构建的通信网络图精确度更高,更接近真实情况。
-
-
-
-
-
-
-
-
-