一种基于正例与未标注学习的发票虚开识别方法及系统

    公开(公告)号:CN110532542A

    公开(公告)日:2019-12-03

    申请号:CN201910636175.4

    申请日:2019-07-15

    Abstract: 本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。

    一种基于深度对抗迁移学习的企业偷漏税识别方法

    公开(公告)号:CN109948645A

    公开(公告)日:2019-06-28

    申请号:CN201910065095.8

    申请日:2019-01-23

    Abstract: 本发明公开了一种基于深度对抗迁移学习的企业偷漏税识别方法,包括:首先,基于随机森林算法对源区域和目标区域的纳税数据进行预处理,提取出有助于偷漏税识别的纳税人属性;其次,引入深度神经网络构建多地区企业偷漏税识别模型框架,依据预处理后的数据确定网络模型的输入神经元个数;再次,使用预处理后的数据训练偷漏税识别模型的网络参数,得到适用于目标区域的偷漏税识别模型;最后,利用训练得到的偷漏税识别模型对目标区域的纳税数据进行识别。本发明通过利用源区域的纳税数据,构建适用于目标区域的偷漏税识别模型,解决了因目标区域缺乏标记数据而无法对其进行企业偷漏税识别建模的问题。

    基于多目标生物地理学优化算法的Docker与虚拟机聚合放置方法

    公开(公告)号:CN109388476A

    公开(公告)日:2019-02-26

    申请号:CN201811190206.X

    申请日:2018-10-12

    Abstract: 本发明基于多目标生物地理学优化算法的Docker与虚拟机聚合放置方法,包括以下内容:首先,创造性地将Docker与虚拟机同时作为聚合单位建立基于DVP三层架构的DVMP(Docker and Virtual Machine Placement,Docker与VM放置)约束模型;其次,明确DVMP约束模型的约束条件,建立DVMP聚合放置模型;接着,执行基于MBBO的Docker与虚拟机聚合放置的映射方法;然后,进行聚合场景适配与编码求解获得有效解,以不断迭代更新初始种群的方式寻找Docker与虚拟机聚合问题的最优解决方案;最后,根据最优放置方案进行Docker与虚拟机聚合放置。本发明所述方法能解决虚拟机资源占用大而难以聚合的问题,能优化数据中心能耗及服务器资源利用率。

    一种高可用的Docker与虚拟机初始放置方法

    公开(公告)号:CN109324876A

    公开(公告)日:2019-02-12

    申请号:CN201811190234.1

    申请日:2018-10-12

    Abstract: 本发明公开了一种高可用的Docker与虚拟机初始放置方法,包括以下内容:基于Docker-VM-PM三层架构建立高可用Docker与虚拟机放置(Docker and Virtual Machine Placement,简称DVMP)约束模型,在此基础上增加容器副本冗余部署的约束条件,构建高可用DVMP初始放置模型;根据高可用DVMP初始放置模型筛选出满足约束条件的虚拟机序列,基于此序列构建高可用的Docker和虚拟机的初始放置方案,并对得到的近似最优Docker、VM初始放置方案执行服务容错能力评价方法,计算容错度,作为当前Docker与虚拟机初始放置方案的服务容错能力。本发明提出的高可用的Docker与虚拟机初始放置方法,有效解决了数据中心资源利用率及服务容错能力的优化问题,同时保障用户服务的高可用。

    一种串行与并行相结合的虚拟机在线迁移方法

    公开(公告)号:CN105607949B

    公开(公告)日:2017-04-26

    申请号:CN201510973873.5

    申请日:2015-12-22

    Abstract: 本发明提供一种串行与并行相结合的虚拟机在线迁移方法,能够缩短云环境下连续性服务或灾难恢复时等待大量虚拟机迁移的时间,也为后续依赖此虚拟机混合迁移方法的虚拟机整合奠定基础。其包括如下步骤,步骤1,将迁移前后的虚拟机与其宿主机的映射变化分别抽象为迁移前后矩阵,其中矩阵中的每个元素代表虚拟机与其宿主机的映射关系;步骤2,对迁移前后矩阵逐行比较,找出两宿主机上在迁移前后仅对调位置的虚拟机,将这两个对调迁移过程判定为无用迁移,并将其剔除后剩余有用迁移;步骤3,根据混合迁移算法将有用迁移生成串行与并行迁移队列;步骤4,根据生成的串行与并行迁移队列输出串行与并行迁移批次及最早迁移时间,用于后续虚拟机的整合。

    一种串行与并行相结合的虚拟机在线迁移方法

    公开(公告)号:CN105607949A

    公开(公告)日:2016-05-25

    申请号:CN201510973873.5

    申请日:2015-12-22

    CPC classification number: G06F9/4875 G06F9/5061

    Abstract: 本发明提供一种串行与并行相结合的虚拟机在线迁移方法,能够缩短云环境下连续性服务或灾难恢复时等待大量虚拟机迁移的时间,也为后续依赖此虚拟机混合迁移方法的虚拟机整合奠定基础。其包括如下步骤,步骤1,将迁移前后的虚拟机与其宿主机的映射变化分别抽象为迁移前后矩阵,其中矩阵中的每个元素代表虚拟机与其宿主机的映射关系;步骤2,对迁移前后矩阵逐行比较,找出两宿主机上在迁移前后仅对调位置的虚拟机,将这两个对调迁移过程判定为无用迁移,并将其剔除后剩余有用迁移;步骤3,根据混合迁移算法将有用迁移生成串行与并行迁移队列;步骤4,根据生成的串行与并行迁移队列输出串行与并行迁移批次及最早迁移时间,用于后续虚拟机的整合。

    基于重叠点识别的网络重叠社团检测方法

    公开(公告)号:CN103400299B

    公开(公告)日:2015-04-29

    申请号:CN201310272890.7

    申请日:2013-07-02

    Abstract: 本发明公开了一种基于重叠点识别的网络重叠社团检测方法,其特征在于:第一步使用GN算法对网络进行社团划分,得到网络非重叠社团集合,并据此得出网络社团边界点集合,计算该集合中边界点的关联社团连接率,选取其中大于检测阈值的节点构建网络社团候选重叠点集合;第二步使用基于节点质量函数的重叠点判定规则识别重叠点,得到网络重叠社团集合;第三步计算第二步得到的重叠社团之间的社团重叠率,合并达到重叠阈值的社团。本发明在对网络进行重叠社团划分过程中综合考虑网络的全局特征和局部特征,增强了网络社团划分的合理性。

    一种多数据中心的HDFS数据读写系统及方法

    公开(公告)号:CN104113597A

    公开(公告)日:2014-10-22

    申请号:CN201410344218.9

    申请日:2014-07-18

    Abstract: 本发明提供一种多数据中心的HDFS数据读写系统及方法,其特征在于,建立全局元数据服务器,用于存储和管理全局的元数据信息,并负责接收客户端数据读写访问请求,根据预设调度算法选择HDFS数据中心;客户端与所选数据中心进行交互进行数据读写操作,操作完成后,数据中心的元数据节点再将元数据的变化信息同步至全局元数据服务器。本发明所述系统及方法实现了多HDFS数据中心的数据读写访问,提供统一的数据访问接口,有效实现了多HDFS数据中心的资源和数据共享。

    一种面向MapReduce框架的地理归属信息查询方法

    公开(公告)号:CN104102707A

    公开(公告)日:2014-10-15

    申请号:CN201410328449.0

    申请日:2014-07-10

    CPC classification number: G06F17/30241

    Abstract: 本发明公开了一种面向MapReduce框架的地理归属信息查询方法,包括以下步骤:设计IP地址转换地理归属信息编码表TIP,IP地址转换地理归属信息编码表TIP采用一维数组实现,每个数组元素是一个整数G,数组下标x是通过IP地址转换得到的整数;设计地理归属信息编码详情表,具体包括国家编码详情表TCODE_COUNTRY、省/区编码详情表TCODE_REGION、城市编码详情表TCODE_CITY以及运营商编码详情表TCODE_ISP;利用IP地址转换地理归属信息编码表TIP和4个地理归属信息编码详情表,查询IP地址的对应地理归属信息编码或详情,利用位运算和寻址操作加快查询的速度;构建基于Web面向MapReduce框架的查询服务,为并发计算环境的海量数据处理提供支持。本发明具有查询过程速度快,占用存储空间少的优点。

    基于重叠点识别的网络重叠社团检测方法

    公开(公告)号:CN103400299A

    公开(公告)日:2013-11-20

    申请号:CN201310272890.7

    申请日:2013-07-02

    Abstract: 本发明公开了一种基于重叠点识别的网络重叠社团检测方法,其特征在于:第一步使用GN算法对网络进行社团划分,得到网络非重叠社团集合,并据此得出网络社团边界点集合,计算该集合中边界点的关联社团连接率,选取其中大于检测阈值的节点构建网络社团候选重叠点集合;第二步使用基于节点质量函数的重叠点判定规则识别重叠点,得到网络重叠社团集合;第三步计算第二步得到的重叠社团之间的社团重叠率,合并达到重叠阈值的社团。本发明在对网络进行重叠社团划分过程中综合考虑网络的全局特征和局部特征,增强了网络社团划分的合理性。

Patent Agency Ranking