一种面向纳税人行业分类的标签噪声学习方法

    公开(公告)号:CN114817546B

    公开(公告)日:2024-09-10

    申请号:CN202210498954.4

    申请日:2022-05-09

    Abstract: 本发明公开了一种面向纳税人行业分类的标签噪声学习方法,包括:首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,并基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类。

    一种基于实例依赖互补标签学习的图像分类方法

    公开(公告)号:CN115995019A

    公开(公告)日:2023-04-21

    申请号:CN202211669312.2

    申请日:2022-12-24

    Abstract: 本发明公开了一种基于实例依赖互补标签学习的图像分类方法,包括:在骨干网络之上构建转移矩阵网络和分类器网络,用于估计实例的互补标签转移矩阵和预测实例的真实类别;将实例特征嵌入为指定维度的特征向量,并以特征向量的欧式距离为度量挖掘实例的近邻;结合互补标注分类和语义聚类训练分类器网络,估计实例的真实类后验概率,选取概率前1%大的实例作为近似锚点对转移矩阵网络进行初始化;引入约束——“特征空间上邻近的实例具有更相似的互补标签转移矩阵”——来限制转移矩阵的自由度,并构建端到端的联合训练框架协同优化转移矩阵网络和分类器网络的参数,将优化后的分类器网络作为最终的预测网络,实现基于实例依赖互补标签学习的图像分类。

    一种基于多级生成模型的纳税人行业分类方法

    公开(公告)号:CN112860895B

    公开(公告)日:2023-03-28

    申请号:CN202110201213.0

    申请日:2021-02-23

    Abstract: 本发明公开了一种基于多级生成模型的纳税人行业分类方法,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息进行文本嵌入及编码,并对编码后的信息做特征处理;其次,将带噪声的纳税人行业类别标签转化为多互补标签;再次,构建双向映射框架下标签和特征层级的多级生成模型;然后,基于编码后的特征和生成的多互补标签对装置进行训练;最后,将标签层级对真实标签的预测作为测试数据的最终纳税人行业类别。本发明通过将带噪标签转化为多互补标签以降低标签的噪声率,并引入特征和标签层级的双向映射以应对纳税人行业类别标签中存在的特征依赖的噪声,能够有效提高纳税人行业分类准确率。

    一种面向在线教育的学习者异常学习状态预测方法

    公开(公告)号:CN114881331A

    公开(公告)日:2022-08-09

    申请号:CN202210498953.X

    申请日:2022-05-09

    Abstract: 本发明一种面向在线教育的学习者异常学习状态预测方法,包括:将高维在线教育平台日志信息和学习者注册信息进行预处理并基于自监督学习方法编码构建学习者画像特征;构建学习者状态特征,进而基于状态特征的产生时序构建状态特征序列,基于状态特征间的余弦相似度构造状态特征图;构建符合在线教育的学习不良程度预测的长短时记忆‑图注意力深层网络,确定网络的层数、每层的神经元个数以及输入输出的维度;基于噪声标签构造伪标签以对网络进行迭代训练;利用训练后的网络预测学习者在待预测学习阶段的异常学习状态及其程度。本发明利用学习者注册信息及学习者日志信息预测学习者状态异常程度,为教师对学习者进行针对性指导和帮助提供了参考。

    一种基于自动编码机的在线学习潜在退出者预测方法

    公开(公告)号:CN113077100B

    公开(公告)日:2024-10-01

    申请号:CN202110409484.5

    申请日:2021-04-16

    Abstract: 本发明公开了一种基于自动编码机的在线学习潜在退出者预测方法,包括:首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。

    一种基于矩阵分解的税务数据安全图神经网络训练方法

    公开(公告)号:CN116861152A

    公开(公告)日:2023-10-10

    申请号:CN202310795131.2

    申请日:2023-06-30

    Abstract: 本发明一种基于矩阵分解的税务数据安全图神经网络训练方法,包括:首先,对税务数据图的邻接矩阵部分利用外部服务器进行安全的特征值分解,并将获得的特征值分解结果分成多个部分,与特征向量矩阵做运算,生成多个可分发的邻接矩阵;其次,对税务数据图的特征矩阵部分,进行差分隐私;再次,税务数据拥有着通过参数服务器将分解后的邻接矩阵与差分隐私后的特征矩阵分发给各计算方进行模型训练;最后,计算方将计算结果返回给税务数据拥有者,经过参数服务器整合更新获得目标模型参数。本发明拓扑秘密分享及邻接矩阵特征值分解的方式,将原始税务数据进行了安全的分解,进而借助外部算力资源实现了对税务数据的高效分析建模,提高了分析效率。

    一种基于自动编码机的在线学习潜在退出者预测方法

    公开(公告)号:CN113077100A

    公开(公告)日:2021-07-06

    申请号:CN202110409484.5

    申请日:2021-04-16

    Abstract: 本发明公开了一种基于自动编码机的在线学习潜在退出者预测方法,包括:首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。

    一种基于噪声标签学习的纳税人行业分类方法

    公开(公告)号:CN112765358A

    公开(公告)日:2021-05-07

    申请号:CN202110201214.5

    申请日:2021-02-23

    Abstract: 一种基于噪声标签学习的纳税人行业分类方法,首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT‑CNN深层网络结构,依据处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。

    一种基于混合比例估计的企业进销项税收风险预测方法

    公开(公告)号:CN116011623A

    公开(公告)日:2023-04-25

    申请号:CN202211610983.1

    申请日:2022-12-12

    Abstract: 一种基于混合比例估计的企业进销项税收风险预测方法,包括:根据进销项发票关联企业,提取企业的文本和非文本信息,对文本信息进行文本嵌入编码,对非文本信息编码,两者合并得到企业特征编码;改进现有的MPE方法,估计税收异常企业的先验概率,得到将税收异常和税收正常企业后验概率转化为标注税收异常和未标注企业后验概率的转移矩阵;构建企业税收风险预测网络并基于转移矩阵将网络的输出映射为标注税收异常企业和未标注企业后验概率,在转移矩阵固定的情况下,基于标注税收异常企业样本和未标注企业样本初始化网络参数;估计得到的转移矩阵,并联合优化学习松弛变量和网络参数,将优化后的网络作为最终的预测模型,实现企业税收风险预测。

    一种偷漏税识别渗透测试方法
    20.
    发明公开

    公开(公告)号:CN115631021A

    公开(公告)日:2023-01-20

    申请号:CN202211414613.0

    申请日:2022-11-11

    Abstract: 本发明公开了一种偷漏税识别渗透测试方法,包括:模拟偷漏税公司个体作案在交易网络中发生虚假交易和隐匿交易的行为,生成使偷漏税检测模型对单个虚开企业检测失败的图对抗样本,对检测模型进行局部测试,计算错误识别率;模拟偷漏税公司团伙作案在交易网络中发生虚假交易和隐匿交易的行为,生成降低检测模型对多个虚开企业的整体检测性能的图对抗样本,对检测模型进行全局测试,计算性能降幅;综合局部测试的错误识别率和全局测试的性能降幅,来全面地评估模型在实际偷漏税识别场景中应用的安全性。本发明实现了评估这些偷漏税识别方法的安全性,诊断这些方法是否存在漏洞,从而保证在要求高安全性的税务场景下应用这些偷漏税识别方法的安全性。

Patent Agency Ranking