一种基于协同网络表示学习的电信异常检测方法

    公开(公告)号:CN109474756B

    公开(公告)日:2020-09-22

    申请号:CN201811367747.5

    申请日:2018-11-16

    Abstract: 本发明公开了一种基于协同网络表示学习的电信异常检测方法,属于数据挖掘与机器学习领域。首先训练xgboost分类器,测试每条CDR数据的欺诈类别概率构成待检测的信令数据集。提取主被叫用户构成通联二部图P,根据评分从信令数据集中选取疑似欺诈的主叫节点生成种子节点集合Z,并将存在共同被叫邻居的任意两个主叫添加到协同网络集合G。通联二部图P扩展出待选的被叫节点集合B,并移除不满足条件的被叫用户,保留下来的被叫节点更新到集合B'中;扩展并更新种子节点集合Z',去重合并更新协同网络G',降维得到嵌入向量进行建模预测,取异常得分最大的N个作为检测结果输出。本发明保证了生成的协同网络的质量,提高计算速度,可以适应不同的数据特点。

    一种微博转发树和转发森林构建方法

    公开(公告)号:CN104778210B

    公开(公告)日:2018-04-27

    申请号:CN201510111754.9

    申请日:2015-03-13

    Abstract: 本发明公开了一种微博转发树和转发森林构建方法,属于数据挖掘领域,包括以下步骤:收集该条微博的原创微博信息;并且根据单条原创微博信息,获取其转发微博信息;然后在单条原创微博信息及其所有转发微博信息上,构造单条微博的微博树结构;根据用户给定时间段t3‑t4内的话题关键词Topic,收集与该话题相关的全量微博信息,针对每一条微博信息,构造单条微博的微博树结构;最后汇总该话题相关的全量微博信息的转发树;形成微博转发森林。本发明的优点为:通过转发树生成算法,高效快速完整地进行转发树和转发森林的提取,具有较高的效率和效果。

    一种大规模数据流中电信欺诈风险识别方法

    公开(公告)号:CN109274836B

    公开(公告)日:2021-06-15

    申请号:CN201811287123.2

    申请日:2018-10-31

    Abstract: 本发明公开了一种大规模数据流中电信欺诈风险识别方法,属于数据挖掘与机器学习和商务智能等领域。从呼叫记录数据库中筛选高风险被叫用户和主叫用户作为分析对象,构建欺诈被叫索引数据库,提取各个索引对应的显著特征;采用二级级联分类模型,得到每个被叫号码的攻击风险值;保留每个高风险被叫号码最近的滑动窗口异常得分的最大值,作为各自的序列风险值;构造被叫号码与主叫号码的通联关系二部图,计算每个被叫号码的通联风险值;借助逻辑回归模型,对每个被叫号码的攻击风险、序列风险和通联风险进行融合,得出每个被叫号码各自的综合风险值。本发明最终的综合风险值具有较高的稳定性和可解释性,实现较高的分类和检测效率。

    基于无监督学习的诈骗呼叫序列检测方法

    公开(公告)号:CN110059889B

    公开(公告)日:2021-05-28

    申请号:CN201910344174.2

    申请日:2019-04-26

    Abstract: 本发明提供了基于无监督学习的诈骗呼叫序列检测方法,包括:构造主叫呼叫序列和呼叫二部图;在呼叫二部图中进行随机游走过程,推断各主叫号码对应节点的低维嵌入表示向量;获取各被叫号码的唯一标识,以主叫号码对应节点的低维嵌入表示向量以及第M个被叫号码对应的唯一标识为神经网络的输入,以第M+1个被叫号码对应的唯一标识为输出,训练获得神经网络预测模型;获取待检测主叫呼叫序列中主叫号码对应节点的低维嵌入表示向量以及各被叫号码对应的唯一标识,并输入所述神经网络预测模型,若得到的预测唯一标识与实际唯一标识的误差大于设定阈值,则判断主叫号码为诈骗号码。本发明中提出的方法容易实现并行化计算,可以实现较高的检测效率。

    基于无监督学习的诈骗呼叫序列检测方法

    公开(公告)号:CN110059889A

    公开(公告)日:2019-07-26

    申请号:CN201910344174.2

    申请日:2019-04-26

    Abstract: 本发明提供了基于无监督学习的诈骗呼叫序列检测方法,包括:构造主叫呼叫序列和呼叫二部图;在呼叫二部图中进行随机游走过程,推断各主叫号码对应节点的低维嵌入表示向量;获取各被叫号码的唯一标识,以主叫号码对应节点的低维嵌入表示向量以及第M个被叫号码对应的唯一标识为神经网络的输入,以第M+1个被叫号码对应的唯一标识为输出,训练获得神经网络预测模型;获取待检测主叫呼叫序列中主叫号码对应节点的低维嵌入表示向量以及各被叫号码对应的唯一标识,并输入所述神经网络预测模型,若得到的预测唯一标识与实际唯一标识的误差大于设定阈值,则判断主叫号码为诈骗号码。本发明中提出的方法容易实现并行化计算,可以实现较高的检测效率。

    一种基于改进的主动学习技术的电信欺诈分类检测方法

    公开(公告)号:CN109492026A

    公开(公告)日:2019-03-19

    申请号:CN201811301410.4

    申请日:2018-11-02

    Abstract: 本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。

    一种基于协同网络表示学习的电信异常检测方法

    公开(公告)号:CN109474756A

    公开(公告)日:2019-03-15

    申请号:CN201811367747.5

    申请日:2018-11-16

    CPC classification number: H04M3/2281 H04W12/12

    Abstract: 本发明公开了一种基于协同网络表示学习的电信异常检测方法,属于数据挖掘与机器学习领域。首先训练xgboost分类器,测试每条CDR数据的欺诈类别概率构成待检测的信令数据集。提取主被叫用户构成通联二部图P,根据评分从信令数据集中选取疑似欺诈的主叫节点生成种子节点集合Z,并将存在共同被叫邻居的任意两个主叫添加到协同网络集合G。通联二部图P扩展出待选的被叫节点集合B,并移除不满足条件的被叫用户,保留下来的被叫节点更新到集合B'中;扩展并更新种子节点集合Z',去重合并更新协同网络G',降维得到嵌入向量进行建模预测,取异常得分最大的N个作为检测结果输出。本发明保证了生成的协同网络的质量,提高计算速度,可以适应不同的数据特点。

    一种基于互补语料的短文本观点挖掘方法

    公开(公告)号:CN106227768A

    公开(公告)日:2016-12-14

    申请号:CN201610559782.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。

Patent Agency Ranking