-
公开(公告)号:CN112465073A
公开(公告)日:2021-03-09
申请号:CN202011536865.1
申请日:2020-12-23
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明提供一种基于距离的数值分布异常检测方法,属于计算机数据安全技术领域。对于数据组而言,剔重前计算得到的距离为整体数组的每个数据对象的分布情况,体现数据数值分布特点,剔重后计算得到的距离体现数据数值分布的广度。本发明通过分别计算剔重前、剔重后的数值距离,将数组中数值整体分布与数组中数值的集中程度结合,既可以检测低频异常值或者孤立值,同时也可以检测常见的高频行为,可以降低常见单维度异常检测算法的误报。
-
公开(公告)号:CN111754337A
公开(公告)日:2020-10-09
申请号:CN202010610974.7
申请日:2020-06-30
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明公开了一种信用卡养卡套现团体识别方法及系统,本发明依托于完善的银行、运营商及公安机关数据,使用均值移动聚类算法(MSC)识别出存在信用卡养卡套现的用户及作案人员,并通过知识图谱强大的特征挖掘能力找出与其关联的关键成员、重要成员,从而挖掘出犯罪团伙。本发明为银行及公安部门进行信用卡养卡套现犯罪活动的侦查提供了一个具有指导性和实践性的方案,为打击犯罪活动提供了有力的线索和证据,有利于信用卡行业的健康发展,并能在一定程度上遏制“洗钱”等不法行为的来源。
-
公开(公告)号:CN111753547A
公开(公告)日:2020-10-09
申请号:CN202010610999.7
申请日:2020-06-30
Applicant: 上海观安信息技术股份有限公司
IPC: G06F40/295 , G06F40/216 , G06Q10/10 , G06F16/35 , G06F16/31
Abstract: 本发明公开了一种用于敏感数据泄露检测的关键词提取方法及检测系统,包括对源文本数据进行清洗,去时间、日期,得到目标文档;针对目标文档,采用TF-IDF算法进行关键词提取,得到TF-IDF关键词候选;针对目标文档,进行非中文处理,得到邮箱、URL、IP、手机号、最长公共子串关键词;将得到的TF-IDF关键词候选与邮箱、URL、IP、手机号、最长公共子串关键词进行剔重排序,得到TF-IDF关键词。
-
公开(公告)号:CN111752729A
公开(公告)日:2020-10-09
申请号:CN202010623557.6
申请日:2020-06-30
Applicant: 上海观安信息技术股份有限公司
IPC: G06F9/54 , G06F16/2458 , G06F16/28 , H04L29/08
Abstract: 本发明提供了一种构建三层关联关系模型的方法,包括以下步骤:S1:提取记录用户访问情况的日志,并进行预处理;S2:对HTTP日志提取主体对象,得到HTTP请求,对HTTP请求和SQL日志中的SQL语句进行分解,并对分解后的HTTP请求和SQL语句分别进行匹配,存储匹配后的结构和参数;S3:基于时间顺序为每个HTTP请求结构匹配其后一段时间内发生的所有SQL结构,得到和序列;S4:基于关联规则算法计算得到HTTP请求和SQL语句的关联关系模型。本发明还提供了基于三层关联模型进行三层关系识别的方法。本发明的优点在于:基于时间序列和特征匹配构造关联关系模型;在统计的基础上挖掘请求和SQL的关系,提高识别的准确率;利用构建的模型对新的数据进行识别,时效性和准确性比较高。
-
公开(公告)号:CN111078979A
公开(公告)日:2020-04-28
申请号:CN201911209962.7
申请日:2019-11-29
Applicant: 上海观安信息技术股份有限公司
IPC: G06F16/951 , G06F16/955 , G06F16/958 , G06K9/00 , G06Q50/26 , G06F40/289 , G06F40/284
Abstract: 本发明提供一种基于OCR和文本处理技术识别网贷网站的方法,包括以下步骤:S101,获取待检测网站URL;S102,使用爬虫技术,对待检测网站进行图片爬取,并输出URL图片集;S103,使用OCR技术,对爬取的图片集进行文字提取;104,使用jieba分词技术,对已提取文字进行内容过滤并分词,然后翻译成拼音分词内容;S105,对拼音分词内容,进行网贷关键词匹配,输出对应URL是否为网贷网站。通对网站图片中的文字内容和网贷业务专家建立网贷信息关键词库,使用OCR技术、文本处理技术,实现拼音匹配,完成了系统化的网贷网站识别方法,该方法高效、准确,有效的弥补了该领域技术空缺。
-
公开(公告)号:CN111078978A
公开(公告)日:2020-04-28
申请号:CN201911209943.4
申请日:2019-11-29
Applicant: 上海观安信息技术股份有限公司
IPC: G06F16/951 , G06F16/958 , G06F40/295 , G06Q50/26
Abstract: 本发明提供一种基于网站文本内容的网贷网站实体识别方法及系统,包括S01、构建训练集域名表;S02、构建预测集域名表;S03、数据清洗与预处理;S04、文本分类模型训练,得到目标文本分类模型;S05、网贷网站识别,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;S06、命名实体识别模型训练,得到目标命名实体识别模型;S07、实体名称标注。本发明基于运营商DPI数据,获取用户访问的网站域名host,获得网页内容并识别出网贷网站,同时利用命名实体识别技术提取出网贷网站中实体名称,进而结合外部黑名单数据,对一些不良网站打标,建立企业黑名单库,这种方法准确率高,时效性高。
-
公开(公告)号:CN110969202A
公开(公告)日:2020-04-07
申请号:CN201911193699.7
申请日:2019-11-28
Applicant: 上海观安信息技术股份有限公司
IPC: G06K9/62
Abstract: 本发明公开了一种基于颜色分量和感知哈希算法的人像采集环境验证方法及系统,包括S100,获取样本数据集合;S200,预处理样本数据,包括正样本和负样本;S300,针对预处理的样本数据,生成数据集D;S400,使用支持向量机分类算法结合数据集D进行分类模型训练,得到训练完成的分类模型;S500,对待检验的人像图片和环境图片,使用分类模型进行预测,输出是否匹配的预测结果。本发明采用感知哈希算法可以有效获得图像的重要内容特征,而颜色分量统计算法从颜色角度出发,弥补了前述算法对颜色信息的计算缺陷,并将两种方法所计算的相似度结果作为数据特征输入至svm模型进行训练,最终得到可以判断输入的人像图片是否为营业厅现场采集的分类模型。
-
公开(公告)号:CN110956503A
公开(公告)日:2020-04-03
申请号:CN201911201625.3
申请日:2019-11-29
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明一种基于用户网络行为的具有借贷需求的用户识别方法及装置,方法包括:1)、获取运营商记录的用户数据,得到关联后的第一特征宽表;2)、针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立主叫号码与金融机构之间的关联特征;3)、得到对应于主叫号码的样本数据,并为样本数据增加标签,将增加标签后的样板数据的集合作为第二特征宽表;4)、将第二特征宽表划分为训练集和测试集,利用训练集训练Xgboost模型,并使用测试集测试训练后的目标Xgboost模型的准确率;5)、使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户。应用本发明实施例,可以识别出具有借贷需求的用户。
-
公开(公告)号:CN110933080A
公开(公告)日:2020-03-27
申请号:CN201911200324.9
申请日:2019-11-29
Applicant: 上海观安信息技术股份有限公司
IPC: H04L29/06
Abstract: 本发明一种用户登录异常的IP群体识别方法及装置,方法包括:获取登录日志,对各个预设周期内的登录日志进行统计,获取各个IP的登录频次序列;将登录频次序列作为样本集合训练孤立森林算法,得到各个IP地址的分值;针对每一个分值,获取分值的众数,获取与众数对应的登录日志集合;从登录频次序列将对应于众数的登录日志的频次序列筛选出来,并对筛选出的频次序列进行二值化处理,得到各个IP在各个周期的标记;根据各个IP在各个周期的标记,利用kappa算法获取登录日志集合的数据之间的kappa系数,并kappa系数大于预设阈值的登录日志集合作为登录异常群体。应用本发明实施例,可以识别出IP之间相互独立的黑产行为。
-
公开(公告)号:CN110913081A
公开(公告)日:2020-03-24
申请号:CN201911195920.2
申请日:2019-11-28
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明公开了一种识别呼叫中心骚扰电话的方法及系统,具体为,先进行电话通话因子基准向量的建模,建模过程为:获取呼叫中心全量电话第一通话数据基础表,构建通话特征,生成第一通话特征宽表,生成通话因子挖掘表,生成电话号码的分类,其类中心确定为骚扰电话通话因子基准向量;然后进行骚扰电话识别,具体为:获取待识别电话的第二通话数据基础表;生成第二通话特征宽表,再生成待识别电话的通话因子向量,计算骚扰电话通话因子基准向量与通话因子向量之间的相似度。建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短。
-
-
-
-
-
-
-
-
-