基于指数平滑、集成学习模型的多级异常检测方法

    公开(公告)号:CN104794192A

    公开(公告)日:2015-07-22

    申请号:CN201510185479.5

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。

    一种用于电信潜在换机用户发现的数据挖掘方法

    公开(公告)号:CN104794195B

    公开(公告)日:2018-04-06

    申请号:CN201510186319.2

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 本发明提供用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:1)数据集构造阶段:a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集;c处理类别不均衡的数据集,形成最终的训练集和预测集;挖掘阶段:a)获取步骤1‑c中处理生成的数据集;b)实施决策树算法发现潜在换机用户;c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效,具有实现简单、代价低等一系列的优点。

    一种智能化中医药信息处理系统

    公开(公告)号:CN104794340A

    公开(公告)日:2015-07-22

    申请号:CN201510186317.3

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 智能化中医药信息处理系统,所述系统为一个综合性的中药方剂数据挖掘平台,包括三模块;第一模块是数据预处理界面模块,将中医药领域常用的excel数据源转变为weka-excel的中间件,供后续使用;其二模块是常用数据挖掘功能界面,模块基于weka源码的二次开发,包含了频繁项集,关联规则,聚类,层次聚类四大中医药领域常用的数据分析手段,并允许进行相应挖掘参数的设置;第三模块是症药关系挖掘界面,该模块基于Apriori频繁项挖掘的改进算法。

    基于指数平滑、集成学习模型的多级异常检测方法

    公开(公告)号:CN104794192B

    公开(公告)日:2018-06-08

    申请号:CN201510185479.5

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 一种基于指数平滑、滑动窗口分布统计和集成学习模型的多级异常检测方法,包括如下步骤:统计检测阶段:a)根据应用场景确定关键特征集合;b)对于离散特征,用滑动窗口分布直方图建模,对于连续特征用指数平滑建模;c)周期性输入各个关键特征的观测值;d)结束。集成学习训练阶段:a)利用已经标记的正常和异常样例,组成训练数据集合;b)训练随机森林分类模型;和集成学习分类阶段;本发明为包含时序特性和复杂行为模式的异常检测问题提供了一个通用框架,适合在线常驻检测,集成学习阶段使用随机森林模型具有可并行化、泛化能力强的特点,该方法可运用于如电信行业业务违规检测、金融行业信用卡欺诈检测、网络攻击检测等多个场景。

    基于社团结构挖掘算法的在线社会网络信息传播最大化方法

    公开(公告)号:CN104820945A

    公开(公告)日:2015-08-05

    申请号:CN201510186252.2

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 基于复杂网络社团发现算法的信息传播最大化方法,包括如下步骤:1)复杂网络生成阶段:预处理从在线社会网络上爬取到的数据变为有向带权图;模型训练阶段:a)利用社团发现算法对复杂网络进行社团发现。b)为每一个社团,输出对应的子图。c)为每一个子图进行不同种子节点选取实验。d)利用所产生数据进行训练模型,并把得到的模型保存到指定区域以待使用。2)种子节点选取阶段:a)要进行挖掘的原始复杂网络分割为不同的社团,并生成对应子图。b)导入模型训练阶段训练好的预测。c)利用预测模型计算出每个子图应分配到几个种子节点进行挖掘。复杂网络数据中选取最具传播能力节点时的时间效率。具有选取结果优,数据处理速度快等优点。

    基于协同过滤推荐算法的机型推荐系统

    公开(公告)号:CN104794635A

    公开(公告)日:2015-07-22

    申请号:CN201510186307.X

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 基于协同过滤推荐算法的手机机型推荐方法,利用协同过滤推荐算法的框架,结合机型生命周期模型和相应的打分函数来为用户精确推荐机型,包括如下步骤,包括最近邻计算阶段和机型推荐阶段:数据预处理,清除噪声和异常数据,排除不符合要求的用户和机型,从用户数据库中抽取目前正在使用的用户的个人信息和历史消费信息,从机型数据库中抽取用户目前使用机型的相关属性;利用预处理后的数据将相应的信息抽取出来为每个用户构建对应的用户向量,并使用本系统设计的方法计算用户间的相似度;计算目标用户与其他用户的相似度取相似度最大的前N个作为目标用户的最近邻居。

    基于社团结构挖掘算法的在线社会网络信息传播最大化方法

    公开(公告)号:CN104820945B

    公开(公告)日:2018-06-22

    申请号:CN201510186252.2

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 基于复杂网络社团发现算法的信息传播最大化方法,包括如下步骤:1)复杂网络生成阶段:预处理从在线社会网络上爬取到的数据变为有向带权图;模型训练阶段:a)利用社团发现算法对复杂网络进行社团发现。b)为每一个社团,输出对应的子图。c)为每一个子图进行不同种子节点选取实验。d)利用所产生数据进行训练模型,并把得到的模型保存到指定区域以待使用。2)种子节点选取阶段:a)要进行挖掘的原始复杂网络分割为不同的社团,并生成对应子图。b)导入模型训练阶段训练好的预测。c)利用预测模型计算出每个子图应分配到几个种子节点进行挖掘。复杂网络数据中选取最具传播能力节点时的时间效率。具有选取结果优,数据处理速度快等优点。

    一种用于电信潜在换机用户发现的数据挖掘方法

    公开(公告)号:CN104794195A

    公开(公告)日:2015-07-22

    申请号:CN201510186319.2

    申请日:2015-04-17

    Applicant: 南京大学

    Abstract: 本发明提供用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:1)数据集构造阶段:a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集;c处理类别不均衡的数据集,形成最终的训练集和预测集;挖掘阶段:a)获取步骤1-c中处理生成的数据集;b)实施决策树算法发现潜在换机用户;c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效,具有实现简单、代价低等一系列的优点。

    用于海量短文本信息发现的自动机方法

    公开(公告)号:CN104077358A

    公开(公告)日:2014-10-01

    申请号:CN201410243718.3

    申请日:2014-06-03

    Applicant: 南京大学

    CPC classification number: G06F17/30628 G06F17/30675

    Abstract: 本发明提供一种用于海量短文本信息发现的自动机方法,包括如下步骤:1)自动机建立:a用Trie树结构保存所有关键词,其中树节点视为状态,树边视为状态跳转;b为每个节点的跳转信息建立哈希表;c为每个词尾状态添加词尾标记和整词信息;d为每个节点添加fail跳转;e结束;2)自动机运行:a逐字读取文本,根据当前状态的跳转信息和读入字符进行跳转操作;b每当跳转到词尾状态时,输出该状态内保存的整词信息;c结束。本发明用于海量短文本信息发现的自动机方法在保证正确性的前提下,利用自动机方法大大提高了海量文本信息发现的效率,利用哈希表的方法减少了自动机跳转时查找跳转表的耗时,全程自动化,用户体验友好。

Patent Agency Ranking