基于自注意力机制的不平衡信贷违约预测方法及装置

    公开(公告)号:CN119273444A

    公开(公告)日:2025-01-07

    申请号:CN202310812519.9

    申请日:2023-07-04

    Applicant: 复旦大学

    Inventor: 吴杰 谭言丹

    Abstract: 本发明提供一种基于自注意力机制的不平衡信贷违约预测方法及装置,该方法包括数据预处理步骤、模型训练步骤以及信贷违约预测步骤,其中,对基于自注意力机制的深度神经网络模型进行训练并利用该模型进行信贷违约的预测,该模型利用先进的自注意力机制,能够有效地提炼出稀疏复杂的金融信贷数据中的关键信息,并通过学习这些关键信息中的内在模式,推导出鲁棒的预测机制。进一步,为了应对金融信贷数据的不平衡性,在模型训练步骤中引入了f1分数作为该模型的训练评价指标,以辅助模型训练,其目的在于找到最优的模型状态,以更准确地识别违约用户,从而实现对不平衡的金融信贷数据的有效学习,提高信贷违约预测的准确率。

    一种自动特征编码的变分自编码表格数据合成方法

    公开(公告)号:CN118211137A

    公开(公告)日:2024-06-18

    申请号:CN202211622135.2

    申请日:2022-12-16

    Applicant: 复旦大学

    Inventor: 吴杰 刘森 谭言丹

    Abstract: 本发明提供一种自动特征编码的变分自编码表格数据合成方法,包括:对训练集中的连续特征采用IGPDF来确定基于VGM编码的聚类上限;构建ATVAE模型,该模型的编码器基于ELBO策略能够将编码后的训练数据的原始分布映射为正态分布,解码器将正态分布的噪声映射为训练数据的合成样本;编码后的训练数据输入至模型,并采用反向传播对输出的合成样本及分布优化;基于确定好的VGM编码的聚类上限,对待合成数据中的连续特征数据编码,对离散特征独时热编码;对于编码后的待合成数据,通过编码器学习到对应的分布,由解码器基于分布的噪声合成所需要的表格数据。本发明能有效辅助合成复杂连续特征的多种高斯分布,降低模型学习的复杂度,使数据分布合成更优。

    一种基于不平衡金融数据的条件变分自编码数据合成方法

    公开(公告)号:CN118210796A

    公开(公告)日:2024-06-18

    申请号:CN202211622155.X

    申请日:2022-12-16

    Applicant: 复旦大学

    Inventor: 吴杰 刘森 谭言丹

    Abstract: 本发明提供一种基于不平衡金融数据的条件变分自编码数据合成方法,包括:对离散特征和连续特征分别进行编码,并将二者的特征编码结果进行拼接生成编码后金融数据;构建CTVAE模型,该模型的编码器基于ELBO策略将编码后的金融数据的原始分布映射为正态分布,解码器将正态分布的噪声映射为合成数据;将编码后金融数据输入至模型,基于条件采样和条件优化训练模型,得到数据合成模型;对于特征编码后的不平衡金融数据,通过数据合成模型的编码器学习到对应的分布,由解码器基于分布的噪声合成所需要的金融数据。本发明在应对数据集中特征不平衡的情况和分布拟合方面,能够辅助不平衡离散值的合理合成,具有较优的性能和更高的适用性。

Patent Agency Ranking