一种基于交易数据的机器学习反欺诈监测系统

    公开(公告)号:CN106682067B

    公开(公告)日:2018-05-01

    申请号:CN201610981804.3

    申请日:2016-11-08

    Abstract: 本发明公开了一种基于交易数据的机器学习反欺诈监测系统,包括管理平台、ETL模块、采样引擎、流处理引擎、训练引擎、预测引擎和决策引擎;流处理引擎通过流式大数据处理对庞大的交易原始数据进行特征的快速提取和计算,从海量原始数据中得到有代表性的特征,充分提取数据中的信息。模型训练模块使用多种针对资金损失率、黑样本查全率优化过的机器学习模型和集成学习框架,得到的是针对某个指标优化的复合模型,克服了单个模型带来的过拟合、不稳定的缺陷,提高了模型的稳定性和泛化能力;模型训练模块通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性,避免欺诈变异带来的模型失效问题。

    一种基于模块度和平衡标签传播的欺诈团伙识别方法

    公开(公告)号:CN108681936B

    公开(公告)日:2021-11-02

    申请号:CN201810382121.5

    申请日:2018-04-26

    Abstract: 本发明公开了一种基于模块度和平衡标签传播的欺诈团伙识别方法,包括:利用ID特征结合用户自身已知的欺诈标识,对所有用户计算两两相似度,建立相似度矩阵,通过相似度矩阵建立关联图;对建立的图运行Louvain算法得出每个节点所属的社区及层级信息;以每个节点所属的社区、层级信息及欺诈标识作为每个节点初始的社区信息,运行平衡标签传播过程得到每个节点最终所属社区,再根据是否归属共同社区划分网络,根据传播获得的欺诈标识划分欺诈团伙。本发明首次将基于模块度和平衡标签传播的欺诈团伙识别方法应用到申请反欺诈和交易反欺诈领域,利用交易关联等信息构建关联图谱,综合社团模块度信息,利用平衡标签传播算法检测欺诈社团,防范潜在欺诈交易。

    一种用于轨道交通多源流数据的分布式实时处理方法

    公开(公告)号:CN110096520A

    公开(公告)日:2019-08-06

    申请号:CN201910350049.2

    申请日:2019-04-28

    Abstract: 本发明公开了一种用于轨道交通多源流数据的分布式实时处理方法,该方法包括多源流数据的合并和合并后流数据的分布式处理两部分;多源流数据的合并首先对同一轨道线路上同一车辆的实时数据进行维度上的合并,对维度合并后得到的新流进行广度上的合并;合并后流数据的分布式处理在分布式系统上实现,分布式系统拥有两种类型的Manager,分别为JobManager以及TaskManager;设置多个JobManager;本发明具有一定的伸缩度,且整个架构的伸缩不会降低或增加整体的流处理计算量;本发明拥有性能高的特点;本发明在进行分布式处理时,采用了分布式多JobManager状态同步的方式实现了完全的分布式处理。

    一种基于交易数据的机器学习反欺诈监测系统

    公开(公告)号:CN106682067A

    公开(公告)日:2017-05-17

    申请号:CN201610981804.3

    申请日:2016-11-08

    CPC classification number: G06F17/30563 G06F17/30303 G06Q40/04

    Abstract: 本发明公开了一种基于交易数据的机器学习反欺诈监测系统,包括管理平台、ETL模块、采样引擎、流处理引擎、训练引擎、预测引擎和决策引擎;流处理引擎通过流式大数据处理对庞大的交易原始数据进行特征的快速提取和计算,从海量原始数据中得到有代表性的特征,充分提取数据中的信息。模型训练模块使用多种针对资金损失率、黑样本查全率优化过的机器学习模型和集成学习框架,得到的是针对某个指标优化的复合模型,克服了单个模型带来的过拟合、不稳定的缺陷,提高了模型的稳定性和泛化能力;模型训练模块通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性,避免欺诈变异带来的模型失效问题。

    一种轨道交通流数据处理方法

    公开(公告)号:CN110971687A

    公开(公告)日:2020-04-07

    申请号:CN201911201991.9

    申请日:2019-11-29

    Abstract: 本发明公开了一种轨道交通流数据处理方法,该方法基于Kafka的消息分发并且设计Storm拓扑结构,通过Kafka汇总轨道交通客流及设备等监测数据形成数据源,并将数据源发送给Storm进行实时处理;Storm拓扑结构由数据源组件KafkaSpout和三个逻辑处理单元PreBolt、RunBolt以及PostBolt组成;通过ZooKeeper提供的Watcher接口则用于对Storm进行监听,通过监听来了解轨道交通信息等变化,然后控制Kafka集群做出相应的指令处理;本发明数据在程序的传递过程均采用随机分组的方式,分布式处理的过程使得数据处理的延时大大降低。

    一种机构名实体识别方法
    16.
    发明公开

    公开(公告)号:CN110222338A

    公开(公告)日:2019-09-10

    申请号:CN201910448361.5

    申请日:2019-05-28

    Abstract: 本发明公开了一种机构名实体识别方法,该方法首先通过无监督方法构建领域词词库的领域字符字向量,再在领域字向量中引入通用标记语料的上下文知识获得最终使用的字向量矩阵。使用最终使用的字向量矩阵训练分词模型来划分领域待识别语料。接着,分析通用标记语料的N-Gram特征获得拓扑关系矩阵。通过拓扑关系矩阵来构建语料的拓扑关系并训练用于机构名实体识别的GCN模型。最终实现对于特定领域的机构名实体识别。本发明方法解决了在特定领域的机构名识别场景下,领域标记语料不足、识别准确率低以及对于领域专有名词识别能力较弱的问题。

    一种轨道交通非结构化流数据实时存储方法

    公开(公告)号:CN109947896A

    公开(公告)日:2019-06-28

    申请号:CN201910181493.6

    申请日:2019-03-11

    Abstract: 本发明公开了一种轨道交通非结构化流数据实时存储方法,将轨道交通非结构化流数据采集到轨道交通大数据处理平台,平台基于Hadoop及其组件Hbase分布式数据库;对采集的多源非结构化流数据构建高效检索方案;将采集的多源非结构化流数据接入到数据缓冲区;队列的缓冲数据量达到阈值后调用HBase多线程写入方法或flushCommits()方法将数据写入HBase。本发明提出基于HBase的轨道交通非结构化流数据存储方案,能满足非结构化数据存储需求、轨道交通流数据的存储速度需求、存储容量需求。本发明提出轨道交通非结构化流数据的高效检索方案,以此设计HBase数据库RowKey可以加快数据检索效率。本发明提出多源非结构流数据多源缓冲区,并提出对应的优化HBase索引的方案,提高流数据写入效率。

    一种基于决策树的风控智能规则导出方法及系统

    公开(公告)号:CN107545360A

    公开(公告)日:2018-01-05

    申请号:CN201710633149.7

    申请日:2017-07-28

    Abstract: 本发明公开了一种基于决策树的风控智能规则导出方法及系统,本发明根据特征的重要性,对其巨量特征进行排序,筛选出重要特征,基于这些特征建立不同深度的决策树,然后使用设定好的阈值对决策树进行筛选,最后根据筛选后的决策树导出规则。本发明方法能够保证业务系统的正常运营情况下,根据不同特征数目分层导出规则,最大限度地侦测出欺诈行为。相比于人为制定规则的风控系统,本发明系统更加稳定、智能并且智能规则效率更高,让企业的损失降到最低。尤其是在业务复杂、数据量庞大的系统中,这种优势越发明显。

    一种用于轨道交通多源流数据的分布式实时处理方法

    公开(公告)号:CN110096520B

    公开(公告)日:2021-08-17

    申请号:CN201910350049.2

    申请日:2019-04-28

    Abstract: 本发明公开了一种用于轨道交通多源流数据的分布式实时处理方法,该方法包括多源流数据的合并和合并后流数据的分布式处理两部分;多源流数据的合并首先对同一轨道线路上同一车辆的实时数据进行维度上的合并,对维度合并后得到的新流进行广度上的合并;合并后流数据的分布式处理在分布式系统上实现,分布式系统拥有两种类型的Manager,分别为JobManager以及TaskManager;设置多个JobManager;本发明具有一定的伸缩度,且整个架构的伸缩不会降低或增加整体的流处理计算量;本发明拥有性能高的特点;本发明在进行分布式处理时,采用了分布式多JobManager状态同步的方式实现了完全的分布式处理。

    一种提升聚合查询效率的聚合索引结构及聚合索引方法

    公开(公告)号:CN111782663A

    公开(公告)日:2020-10-16

    申请号:CN202010752340.5

    申请日:2020-07-30

    Abstract: 本发明公开了一种提升聚合查询效率的聚合索引结构及聚合索引方法,所述聚合索引通过分组和切片两个维度对流水数据进行划分,然后对划分后的数据进行聚合,其结构包括索引元数据、切片数据列表和明细数据存储;聚合索引方法包括聚合索引定义、聚合索引创建、和聚合索引查询三个部分。本发明提出的聚合索引结构和方法能够极大提升聚合查询的效率,支持PB级别数据的即席聚合查询,能在秒级完成对大量数据的聚合查询,支持新数据的随时插入,在查询范围条件发生变更的情况下,也能在分钟级甚至秒级延时内返回查询结果。

Patent Agency Ranking