一种基于无监督学习的时间序列异常检测方法及系统

    公开(公告)号:CN112597539A

    公开(公告)日:2021-04-02

    申请号:CN202011589222.3

    申请日:2020-12-28

    Abstract: 本发明提供一种基于无监督学习的时间序列异常检测方法,包括:S01.获取服务访问记录,构建用于比较的时间序列;S02.构建时间序列,选择设定的时间段,对用户访问服务的次数做统计,形成时间序列;S03.异常操作时间序列检测,采用局部异常因子算法对步骤S02中的时间序列表做局部异常因子检测,采用动态时间规整距离计算序列间的距离,并根据距离计算局部异常因子;S04.异常操作筛选。本发明通过将DTW距离替代局部异常因子算法中的距离算法来对运营商或类似企业内部服务器访问行为进行异常检测,可以只应用一个模型,在没有对用户进行分类的情况下做时间序列的无监督异常检测,不需要区分类型,不需要根据序列的周期性、季节性等特征管理多个模型。

    一种构建三层关联关系模型的方法及三层关系识别方法

    公开(公告)号:CN111752729A

    公开(公告)日:2020-10-09

    申请号:CN202010623557.6

    申请日:2020-06-30

    Abstract: 本发明提供了一种构建三层关联关系模型的方法,包括以下步骤:S1:提取记录用户访问情况的日志,并进行预处理;S2:对HTTP日志提取主体对象,得到HTTP请求,对HTTP请求和SQL日志中的SQL语句进行分解,并对分解后的HTTP请求和SQL语句分别进行匹配,存储匹配后的结构和参数;S3:基于时间顺序为每个HTTP请求结构匹配其后一段时间内发生的所有SQL结构,得到和序列;S4:基于关联规则算法计算得到HTTP请求和SQL语句的关联关系模型。本发明还提供了基于三层关联模型进行三层关系识别的方法。本发明的优点在于:基于时间序列和特征匹配构造关联关系模型;在统计的基础上挖掘请求和SQL的关系,提高识别的准确率;利用构建的模型对新的数据进行识别,时效性和准确性比较高。

    一种基于网站文本内容的网贷网站实体识别方法及系统

    公开(公告)号:CN111078978A

    公开(公告)日:2020-04-28

    申请号:CN201911209943.4

    申请日:2019-11-29

    Abstract: 本发明提供一种基于网站文本内容的网贷网站实体识别方法及系统,包括S01、构建训练集域名表;S02、构建预测集域名表;S03、数据清洗与预处理;S04、文本分类模型训练,得到目标文本分类模型;S05、网贷网站识别,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;S06、命名实体识别模型训练,得到目标命名实体识别模型;S07、实体名称标注。本发明基于运营商DPI数据,获取用户访问的网站域名host,获得网页内容并识别出网贷网站,同时利用命名实体识别技术提取出网贷网站中实体名称,进而结合外部黑名单数据,对一些不良网站打标,建立企业黑名单库,这种方法准确率高,时效性高。

    基于颜色分量和感知哈希算法的人像采集环境验证方法及系统

    公开(公告)号:CN110969202A

    公开(公告)日:2020-04-07

    申请号:CN201911193699.7

    申请日:2019-11-28

    Abstract: 本发明公开了一种基于颜色分量和感知哈希算法的人像采集环境验证方法及系统,包括S100,获取样本数据集合;S200,预处理样本数据,包括正样本和负样本;S300,针对预处理的样本数据,生成数据集D;S400,使用支持向量机分类算法结合数据集D进行分类模型训练,得到训练完成的分类模型;S500,对待检验的人像图片和环境图片,使用分类模型进行预测,输出是否匹配的预测结果。本发明采用感知哈希算法可以有效获得图像的重要内容特征,而颜色分量统计算法从颜色角度出发,弥补了前述算法对颜色信息的计算缺陷,并将两种方法所计算的相似度结果作为数据特征输入至svm模型进行训练,最终得到可以判断输入的人像图片是否为营业厅现场采集的分类模型。

    一种用户登录异常的IP群体识别方法及装置

    公开(公告)号:CN110933080A

    公开(公告)日:2020-03-27

    申请号:CN201911200324.9

    申请日:2019-11-29

    Abstract: 本发明一种用户登录异常的IP群体识别方法及装置,方法包括:获取登录日志,对各个预设周期内的登录日志进行统计,获取各个IP的登录频次序列;将登录频次序列作为样本集合训练孤立森林算法,得到各个IP地址的分值;针对每一个分值,获取分值的众数,获取与众数对应的登录日志集合;从登录频次序列将对应于众数的登录日志的频次序列筛选出来,并对筛选出的频次序列进行二值化处理,得到各个IP在各个周期的标记;根据各个IP在各个周期的标记,利用kappa算法获取登录日志集合的数据之间的kappa系数,并kappa系数大于预设阈值的登录日志集合作为登录异常群体。应用本发明实施例,可以识别出IP之间相互独立的黑产行为。

Patent Agency Ranking