一种面向纳税人风险评估的标签噪声鲁棒图神经网络训练方法

    公开(公告)号:CN118468975A

    公开(公告)日:2024-08-09

    申请号:CN202410664867.0

    申请日:2024-05-27

    Abstract: 本发明一种面向纳税人风险评估的标签噪声鲁棒图神经网络训练方法,包括:提取纳税人基本信息中的内容进行数据清洗,以及特征处理、编码;根据纳税人相关的特征向量得到节点特征矩阵、邻接矩阵、以及节点未处理包含噪声对应的标签;构建符合纳税人风险估计问题的标签噪声鲁棒图神经网络结构,依据处理后的特征信息和目标类别数来确定图卷积层、注意力机制;对模型进行预训练;为每个节点应用随机采样近邻上下文,采用当前网络模型来推断给定其不同近邻上下文的节点标签,汇总标签结果,并将预测的标签收集为一个多候补标签集,利用加权策略来聚合多候补标签信息进行模型训练;经过训练得到所需要的分类模型,基于此模型进行纳税人风险评估。

    一种面向教育大数据的高可用性差分隐私图生成方法

    公开(公告)号:CN116595586A

    公开(公告)日:2023-08-15

    申请号:CN202310785002.5

    申请日:2023-06-29

    Abstract: 一种面向教育大数据的高可用性差分隐私图生成方法,包括:首先,以原始图结构数据作为输入,利用逆向学习挖掘图中骨干网络,生成假定邻接矩阵;其次,为深化从假定邻接矩阵中的拓扑信息,依据上一步获得的假定邻接矩阵,利用编码解码器生成可能性矩阵;再次,根据隐私预算的大小,生成相应的差分隐私图,获得虚假边。最后,根据可能性矩阵,图中每个节点从真实边和虚假边中分别采样一定数量的边,总数等同于真实边数量,生成受保护的差分隐私邻接矩阵。一方面,从具有高可能性的真实边采样保留了图中的重要信息,保证图的可用性,另一方面,从虚假边中采样可以有效保护原始的图拓扑信息,实现对图的隐私保护,同时保护节点度分布这一重要特征。

    一种面向涉税法律文本的命名实体识别依赖增强方法

    公开(公告)号:CN116050413A

    公开(公告)日:2023-05-02

    申请号:CN202211627706.1

    申请日:2022-12-16

    Abstract: 本发明公开了一种面向涉税法律文本的命名实体识别依赖增强方法,包括:将税务命名实体识别视为跨度分类任务,通过滑动窗口从输入文本中枚举大量跨度,并通过特征拼接方法生成每个跨度的深度表示;引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系;采用尺度变换机制实现跨度交互,将每一个候选跨度的几何信息嵌入原生跨度表示中,以编码跨度之间的交互依赖关系。本发明将税务命名实体识别转换为跨度分类任务,并充分挖掘了实体间交互依赖关系,实现强推断关系,并引入对比学习提高了高重叠实体间不同类型的区分度,可以更加准确、合理地针对税务法律文本中的命名实体进行识别,为税收优惠等下游任务奠定基础。

    一种基于噪声标签学习的纳税人行业分类方法

    公开(公告)号:CN112765358B

    公开(公告)日:2023-04-07

    申请号:CN202110201214.5

    申请日:2021-02-23

    Abstract: 一种基于噪声标签学习的纳税人行业分类方法,首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT‑CNN深层网络结构,依据处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。

    一种面向纳税人企业分类的重要因子提取方法及装置

    公开(公告)号:CN115618926A

    公开(公告)日:2023-01-17

    申请号:CN202211414583.3

    申请日:2022-11-11

    Abstract: 本发明公开了一种面向纳税人企业分类的重要因子提取方法及装置,包括:首先,对原始数据进行数据清洗,剔除残缺数据,并构建成异构图数据形式,用于后续步骤;其次,构建基于注意力机制的异构图神经网络,并利用半监督算法对网络进行优化,实现高精确率的异常企业检测结果;再次,设计基于元路径扰动的异构图解释器,实现影响异常数据检测的重要因子的提取;最后,将异常分类结果与重要因子结合,以可视化的形式展示,交付给专业税务稽查人员以备后续使用。

    一种基于介科学的可解释性发票虚开检测方法

    公开(公告)号:CN115496571A

    公开(公告)日:2022-12-20

    申请号:CN202211311760.5

    申请日:2022-10-25

    Abstract: 本发明公开了一种基于介科学的可解释性发票虚开检测方法,包括步骤:首先将税务交易数据转化为税务动态网络,用于下游的数据推理和计算。然后基于介科学复杂系统建模理论,发票虚开数据系统划分为若干介区域,分别是“数据项‑发票”,“发票‑企业”和“企业‑团伙”。其次,在划分好的介区域中,通过融合税务领域知识构建介区域中的控制机制,实现数据推理,检测企业是否存在虚开发票的行为。最后对推理结果进行反向遍历找出结果生成的依据,形成与该结果对应的证据链。本发明使得税局稽查部门能够有效且有依据的检测到企业的发票虚开行为。

    一种面向纳税人行业分类的标签噪声学习方法

    公开(公告)号:CN114817546A

    公开(公告)日:2022-07-29

    申请号:CN202210498954.4

    申请日:2022-05-09

    Abstract: 本发明公开了一种面向纳税人行业分类的标签噪声学习方法,包括:首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,并基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类。

    一种面向复杂税务数据系统的介区域识别方法

    公开(公告)号:CN115496570A

    公开(公告)日:2022-12-20

    申请号:CN202211311742.7

    申请日:2022-10-25

    Abstract: 本发明公开了一种面向复杂动态网络的层次划分和介区域识别方法,包括:首先,通过“静态快照构建‑动态时序嵌入”两阶段的方法,将复杂数据系统转化为语义等价的,包含对象、关系、属性和时序等要素的复杂动态网络;其次,基于系统科学中绝热消去原理,识别所关注的子系统随动态网络演化的主导因素,在此基础上构建边界尺度的假设空间;再次,基于频繁子图挖掘算法,挖掘各边界尺度的子图实例中的Motif;最后,基于二进制向量编码构建各边界尺度的相关度矩阵,再基于条件概率对边界尺度层级耦合关系建模,辨识子图模式层级耦合,通过置信度阈值判定两假设空间之间是否存在介区域。

    一种基于多级生成模型的纳税人行业分类方法

    公开(公告)号:CN112860895A

    公开(公告)日:2021-05-28

    申请号:CN202110201213.0

    申请日:2021-02-23

    Abstract: 本发明公开了一种基于多级生成模型的纳税人行业分类方法,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息进行文本嵌入及编码,并对编码后的信息做特征处理;其次,将带噪声的纳税人行业类别标签转化为多互补标签;再次,构建双向映射框架下标签和特征层级的多级生成模型;然后,基于编码后的特征和生成的多互补标签对装置进行训练;最后,将标签层级对真实标签的预测作为测试数据的最终纳税人行业类别。本发明通过将带噪标签转化为多互补标签以降低标签的噪声率,并引入特征和标签层级的双向映射以应对纳税人行业类别标签中存在的特征依赖的噪声,能够有效提高纳税人行业分类准确率。

Patent Agency Ranking