-
公开(公告)号:CN110852443B
公开(公告)日:2023-02-21
申请号:CN201910919567.1
申请日:2019-09-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本申请提供了一种特征稳定性检测方案中,使用所述训练集中样本的特征组对基于阈值分类的机器学习模型进行训练,获取训练过程中基于每项特征进行分类时所采用的分类阈值,并根据所述分类阈值划分每项特征的值域区间,在确定值域区间之后,使用测试集中样本的特征组,并基于对应于每项特征的值域,计算每项特征的稳定性指标,由于不需要人工设定每个特征的区间划分,而是基于模型训练过程中的分类阈值来自动划分值域区间,由此获取的值域区间会与机器学习模型实际的特征分布符合,使得以此计算获得的稳定性指标能够真实的反映特征分布变化对于模型性能的影响,有效防止在特征选择时筛掉合适的特征。
-
公开(公告)号:CN112434167A
公开(公告)日:2021-03-02
申请号:CN202110100246.6
申请日:2021-01-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供了一种信息识别方法及装置,其中,该方法包括:获取待识别的多个目标文本信息;其中,该目标文本信息为针对历史事件所产生的文本信息文档;确定每个目标文本信息对应的文本分词关系图谱;其中,该文本分词关系图谱包括:文本分词节点和分词节点连接边;将确定出的文本分词关系图谱输入至预先训练好的神经网络模型,得到目标文本信息之间的信息关联程度;其中,该信息关联程度用于表征至少两个所述目标文本信息为针对同一历史事件所产生的文本信息文档的概率。
-
公开(公告)号:CN110852443A
公开(公告)日:2020-02-28
申请号:CN201910919567.1
申请日:2019-09-26
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00
Abstract: 本申请提供了一种特征稳定性检测方案中,使用所述训练集中样本的特征组对基于阈值分类的机器学习模型进行训练,获取训练过程中基于每项特征进行分类时所采用的分类阈值,并根据所述分类阈值划分每项特征的值域区间,在确定值域区间之后,使用测试集中样本的特征组,并基于对应于每项特征的值域,计算每项特征的稳定性指标,由于不需要人工设定每个特征的区间划分,而是基于模型训练过程中的分类阈值来自动划分值域区间,由此获取的值域区间会与机器学习模型实际的特征分布符合,使得以此计算获得的稳定性指标能够真实的反映特征分布变化对于模型性能的影响,有效防止在特征选择时筛掉合适的特征。
-
公开(公告)号:CN111428757A
公开(公告)日:2020-07-17
申请号:CN202010146141.X
申请日:2020-03-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06K9/62
Abstract: 本说明书实施例公开了模型训练方法、异常数据检测方法、装置和电子设备的实施例。所述方法包括:获取训练样本集,所述训练样本集包括无标签样本集和有标签样本集,所述无标签样本集包括多个第一样本,所述有标签样本集包括多个第二样本和类型标签;根据所述无标签样本集,对第一模型进行训练,所述第一模型包括特征提取子模型;根据所述有标签样本集和所述特征提取子模型的训练结果,对第二模型进行训练,所述第二模型包括所述特征提取子模型和异常数据检测子模型,所述异常数据检测子模型用于根据所述特征提取子模型的输出检测异常数据。本说明书实施例可以提高第二模型的训练效果。
-
公开(公告)号:CN119089042A
公开(公告)日:2024-12-06
申请号:CN202411140267.0
申请日:2024-08-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9535 , G06F16/906 , G06F18/24 , G06N3/096 , G06N3/094 , G06N3/0455
Abstract: 本说明书实施例提出一种模型训练方法、推荐数据点击率的预测方法和电子设备,上述模型训练方法中,获取目标域样本数据和所述目标样本数据对应的点击率的标签值之后,首先分别通过学生模型中的第一表征解耦模型和第二表征解耦模型,以及已完成参数调整的老师模型中的域分类器,获得域共享表征向量和域独有表征向量,然后根据域共享表征向量和域独有表征向量,通过学生模型中的点击率预测模型获得目标域样本数据对应的点击率的第一预测值,最后,以最小化学生模型的损失函数为目的,调整点击率预测模型、第一表征解耦模型和第二表征解耦模型的参数,其中,学生模型的损失函数包括目标域样本数据对应的点击率的标签值和第一预测值之间的交叉熵。
-
公开(公告)号:CN111428757B
公开(公告)日:2021-09-10
申请号:CN202010146141.X
申请日:2020-03-05
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06K9/62
Abstract: 本说明书实施例公开了模型训练方法、异常数据检测方法、装置和电子设备的实施例。所述方法包括:获取训练样本集,所述训练样本集包括无标签样本集和有标签样本集,所述无标签样本集包括多个第一样本,所述有标签样本集包括多个第二样本和类型标签;根据所述无标签样本集,对第一模型进行训练,所述第一模型包括特征提取子模型;根据所述有标签样本集和所述特征提取子模型的训练结果,对第二模型进行训练,所述第二模型包括所述特征提取子模型和异常数据检测子模型,所述异常数据检测子模型用于根据所述特征提取子模型的输出检测异常数据。本说明书实施例可以提高第二模型的训练效果。
-
公开(公告)号:CN112434167B
公开(公告)日:2021-04-20
申请号:CN202110100246.6
申请日:2021-01-26
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书一个或多个实施例提供了一种信息识别方法及装置,其中,该方法包括:获取待识别的多个目标文本信息;其中,该目标文本信息为针对历史事件所产生的文本信息文档;确定每个目标文本信息对应的文本分词关系图谱;其中,该文本分词关系图谱包括:文本分词节点和分词节点连接边;将确定出的文本分词关系图谱输入至预先训练好的神经网络模型,得到目标文本信息之间的信息关联程度;其中,该信息关联程度用于表征至少两个所述目标文本信息为针对同一历史事件所产生的文本信息文档的概率。
-
-
-
-
-
-