特征稳定性检测方法、设备及计算机可读介质

    公开(公告)号:CN110852443B

    公开(公告)日:2023-02-21

    申请号:CN201910919567.1

    申请日:2019-09-26

    Abstract: 本申请提供了一种特征稳定性检测方案中,使用所述训练集中样本的特征组对基于阈值分类的机器学习模型进行训练,获取训练过程中基于每项特征进行分类时所采用的分类阈值,并根据所述分类阈值划分每项特征的值域区间,在确定值域区间之后,使用测试集中样本的特征组,并基于对应于每项特征的值域,计算每项特征的稳定性指标,由于不需要人工设定每个特征的区间划分,而是基于模型训练过程中的分类阈值来自动划分值域区间,由此获取的值域区间会与机器学习模型实际的特征分布符合,使得以此计算获得的稳定性指标能够真实的反映特征分布变化对于模型性能的影响,有效防止在特征选择时筛掉合适的特征。

    一种信息识别方法及装置

    公开(公告)号:CN112434167A

    公开(公告)日:2021-03-02

    申请号:CN202110100246.6

    申请日:2021-01-26

    Abstract: 本说明书一个或多个实施例提供了一种信息识别方法及装置,其中,该方法包括:获取待识别的多个目标文本信息;其中,该目标文本信息为针对历史事件所产生的文本信息文档;确定每个目标文本信息对应的文本分词关系图谱;其中,该文本分词关系图谱包括:文本分词节点和分词节点连接边;将确定出的文本分词关系图谱输入至预先训练好的神经网络模型,得到目标文本信息之间的信息关联程度;其中,该信息关联程度用于表征至少两个所述目标文本信息为针对同一历史事件所产生的文本信息文档的概率。

    特征稳定性检测方法、设备及计算机可读介质

    公开(公告)号:CN110852443A

    公开(公告)日:2020-02-28

    申请号:CN201910919567.1

    申请日:2019-09-26

    Abstract: 本申请提供了一种特征稳定性检测方案中,使用所述训练集中样本的特征组对基于阈值分类的机器学习模型进行训练,获取训练过程中基于每项特征进行分类时所采用的分类阈值,并根据所述分类阈值划分每项特征的值域区间,在确定值域区间之后,使用测试集中样本的特征组,并基于对应于每项特征的值域,计算每项特征的稳定性指标,由于不需要人工设定每个特征的区间划分,而是基于模型训练过程中的分类阈值来自动划分值域区间,由此获取的值域区间会与机器学习模型实际的特征分布符合,使得以此计算获得的稳定性指标能够真实的反映特征分布变化对于模型性能的影响,有效防止在特征选择时筛掉合适的特征。

    模型训练方法、异常数据检测方法、装置和电子设备

    公开(公告)号:CN111428757A

    公开(公告)日:2020-07-17

    申请号:CN202010146141.X

    申请日:2020-03-05

    Abstract: 本说明书实施例公开了模型训练方法、异常数据检测方法、装置和电子设备的实施例。所述方法包括:获取训练样本集,所述训练样本集包括无标签样本集和有标签样本集,所述无标签样本集包括多个第一样本,所述有标签样本集包括多个第二样本和类型标签;根据所述无标签样本集,对第一模型进行训练,所述第一模型包括特征提取子模型;根据所述有标签样本集和所述特征提取子模型的训练结果,对第二模型进行训练,所述第二模型包括所述特征提取子模型和异常数据检测子模型,所述异常数据检测子模型用于根据所述特征提取子模型的输出检测异常数据。本说明书实施例可以提高第二模型的训练效果。

    模型训练方法、异常数据检测方法、装置和电子设备

    公开(公告)号:CN111428757B

    公开(公告)日:2021-09-10

    申请号:CN202010146141.X

    申请日:2020-03-05

    Abstract: 本说明书实施例公开了模型训练方法、异常数据检测方法、装置和电子设备的实施例。所述方法包括:获取训练样本集,所述训练样本集包括无标签样本集和有标签样本集,所述无标签样本集包括多个第一样本,所述有标签样本集包括多个第二样本和类型标签;根据所述无标签样本集,对第一模型进行训练,所述第一模型包括特征提取子模型;根据所述有标签样本集和所述特征提取子模型的训练结果,对第二模型进行训练,所述第二模型包括所述特征提取子模型和异常数据检测子模型,所述异常数据检测子模型用于根据所述特征提取子模型的输出检测异常数据。本说明书实施例可以提高第二模型的训练效果。

    一种信息识别方法及装置

    公开(公告)号:CN112434167B

    公开(公告)日:2021-04-20

    申请号:CN202110100246.6

    申请日:2021-01-26

    Abstract: 本说明书一个或多个实施例提供了一种信息识别方法及装置,其中,该方法包括:获取待识别的多个目标文本信息;其中,该目标文本信息为针对历史事件所产生的文本信息文档;确定每个目标文本信息对应的文本分词关系图谱;其中,该文本分词关系图谱包括:文本分词节点和分词节点连接边;将确定出的文本分词关系图谱输入至预先训练好的神经网络模型,得到目标文本信息之间的信息关联程度;其中,该信息关联程度用于表征至少两个所述目标文本信息为针对同一历史事件所产生的文本信息文档的概率。

Patent Agency Ranking