一种面向钓鱼URL检测的相似样本集构造方法

    公开(公告)号:CN107798080B

    公开(公告)日:2020-05-22

    申请号:CN201710952357.3

    申请日:2017-10-13

    Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。

    一种面向新闻标题的人物关系抽取方法

    公开(公告)号:CN105608070B

    公开(公告)日:2019-01-25

    申请号:CN201510965136.0

    申请日:2015-12-21

    Abstract: 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间关系的正确性;3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2)得到的句式模板的正/负例个数,判定给定的人物关系是否正确。本发明在保证准确率的同时,降低了特征维度,提高了判定效率,可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事件等,便于及时掌握社会动态,监控舆情。

    一种基于开源信息的可疑威胁指标主动验证方法和系统

    公开(公告)号:CN109194605A

    公开(公告)日:2019-01-11

    申请号:CN201810709596.0

    申请日:2018-07-02

    Abstract: 本发明涉及一种基于开源信息的可疑威胁指标主动验证方法和系统。该方法包括以下步骤:1)设计特定查询语句,所述特定查询语句是可疑威胁指标与特定场景的组合;2)收集和爬取根据所述特定查询语句在互联网上检索得到的结果信息;3)将所述结果信息中的相关开源信息进行结构化处理,得到结构化数据;4)利用所述结构化数据,充分学习其中的隐藏特征,训练相应的分类模型;5)利用所述分类模型验证在特定场景下的可疑威胁指标的恶意性,从而识别网络威胁。该系统包括查询设计模块、信息采集模块、数据处理模块、模型训练模块、指标验证模块。本发明能够高效准确地完成对可疑威胁指标的验证,帮助人们识别高级威胁攻击,保证网络安全。

    一种海量安全日志信息过滤方法及装置

    公开(公告)号:CN109101527A

    公开(公告)日:2018-12-28

    申请号:CN201810642159.1

    申请日:2018-06-21

    Abstract: 本发明公开了一种海量安全日志信息过滤方法及装置。本方法为:1)提取安全日志信息的特征序列;2)根据黑白名单对所述特征序列进行标注,利用标注好的特征序列训练向量表示模型;其中,将根据黑白名单无法标注的特征序列称为灰度数据;3)利用训练好的向量表示模型,对所述灰度数据进行向量表示,得到各所述灰度数据对应的向量;4)计算每一所述灰度数据i对应的向量与各标注为白名单的特征序列对应的向量之间的距离d;如果该距离d小于设定阈值,则过滤掉所述灰度数据i对应的安全日志。本发明能够在小规模黑白名单基础上实现大规模正常日志信息的过滤,提升了异常检测的效率。

    一种针对URL的分词方法及装置

    公开(公告)号:CN108228710A

    公开(公告)日:2018-06-29

    申请号:CN201711237280.8

    申请日:2017-11-30

    Abstract: 本发明涉及一种针对URL的分词方法及装置。该方法包括:1)对URL地址按照其内在的层次结构进行分割,得到若干层次部分;2)对所述若干层次部分依次进行符号分割与正则表达式过滤;3)对步骤2)处理后得到字符串进行分割,得到URL分词序列。其中步骤1)将URL地址分割为五个层次部分:协议类型、自由域名、二级域名、顶级域名和路径;步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。本发明充分利用了URL本身的层次结构,能够高效地对URL进行分割,并最大化地保留了URL地址中的有用信息,得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析,能够有效提高任务准确率。

    一种基于社团划分的无监督复合短语识别方法

    公开(公告)号:CN106897264A

    公开(公告)日:2017-06-27

    申请号:CN201710018100.0

    申请日:2017-01-10

    CPC classification number: G06F17/278

    Abstract: 本发明涉及一种基于社团划分的无监督复合短语识别方法。该方法包括:1)采用词性标注工具对输入的语料进行词性标注和分词;2)生成科技复合短语的上下文模板,并通过所述上下文模板对分词后的语料进行科技复合短语的预提取;3)将预提取后的文本中的分词序列映射到有序的社团图结构,按照分词之间的权重将前后具有紧密联系的词语划分到一个社团分段中;4)计算各个社团分段的模块度,并求解不同社团分段的组合的模块度,将整个输入文本的模块度之和最大化;5)验证各社团分段是否包含科技复合短语的特征词,以实现科技复合短语的最终识别。本发明只需少量标注语料,便可以自动识别科技类复合短语,是一种高效的科技类复合短语识别方法。

    一种基于字模型的评论文本实体识别方法及装置

    公开(公告)号:CN106776555A

    公开(公告)日:2017-05-31

    申请号:CN201611129133.4

    申请日:2016-12-09

    Abstract: 本发明涉及一种基于字模型的评论文本实体识别方法及装置。该方法包括:1)使用标注好的训练数据训练基于字的双向LSTM模型;2)使用训练好的基于字的双向LSTM模型对输入的评价性文本进行核心实体识别;3)对基于字的双向LSTM模型输出的非空结果进行字补齐,将补齐后的结果作为最终识别出的核心实体并输出;4)对基于字的双向LSTM模型输出的结果为空的评价性文本,通过文本分词、词性标注和实体词典生成一个候选实体作为核心实体。本发明可以从大规模、表达口语化的评论文本中准确高效地提取文本中实体。

    一种识别用户名缩写现象的方法

    公开(公告)号:CN106168946A

    公开(公告)日:2016-11-30

    申请号:CN201610474472.X

    申请日:2016-06-24

    CPC classification number: G06F17/2765 G06F17/30867

    Abstract: 本发明提供一种识别用户名缩写现象的方法,步骤包括:1)对两个或两个以上的用户名中的字符进行过滤,仅保留英文字母和数字;2)将上述过滤后的用户名各分割成若干个连续片段,各选取每个片段的首字符组成一新字符串;3)根据上述新字符串获取最长缩写词长度,如长度值大于或等于给定阈值ΔL,则判定所述用户名间具有用户名缩写现象;将保留的英文字母统一转换成小写或大写的形式;所述片段为单词或单个字符;所述片段根据指定的字典分割得到;采用动态规划算法根据所述新字符串获取最长缩写词长度。

    一种面向通信网络的用户行为模式挖掘方法及系统

    公开(公告)号:CN103744994A

    公开(公告)日:2014-04-23

    申请号:CN201410030664.2

    申请日:2014-01-22

    CPC classification number: G06F17/30702

    Abstract: 本发明涉及一种面向通信网络的用户行为模式挖掘方法及系统,包括:获取一系列网络快照,根据活跃度确定研究对象,确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵,进而计算基准特征矩阵;对基准特征矩阵和每个网络快照的特征矩阵做标准化处理,分解标准化基准特征矩阵得到模元矩阵和系数矩阵;利用每个网络快照的标准化特征矩阵和模元矩阵计算每个网络快照中所有研究对象的行为模式矩阵,即本发明采用“相关特征-模元-行为模式”的三元对应关系表示用户行为模式,为用户的通信行为模式提供统一的表示方法,在用户量大的情况下用户间的模式对比清晰明了,有助于方便正确地检测数据集中用户行为模式的变化情况。

    数据服务方法及系统
    30.
    发明公开

    公开(公告)号:CN117688345A

    公开(公告)日:2024-03-12

    申请号:CN202311496024.6

    申请日:2023-11-10

    Abstract: 本发明公开了一种数据服务方法及系统,所述方法包括:通过用户行为来确定需要捕获的原始数据,并结合标注任务所确定的数据格式,得到原始数据集;基于原始数据集进行数据生成,以得到生成数据集;结合用户配置的标注任务,已训练的数据标注模型对原始数据集和生成数据集内的数据进行标注,以得到标注数据集;将数据标注模型、原始数据集、生成数据集和标注数据集存储到数据中心后,设置数据标注模型或数据的权限和检索标签;其中,数据中心设有一提供模型标注服务的数据标注接口和一提供模型管理服务的模型管理接口。本发明可以为数据提供全面服务的同时,能够高效的完成从数据采集到数据使用的完整工作。

Patent Agency Ranking