-
公开(公告)号:CN115712851A
公开(公告)日:2023-02-24
申请号:CN202211434565.1
申请日:2022-11-16
Applicant: 杭州安恒信息技术股份有限公司
Abstract: 本申请公开了一种伪行数据的生成方法、装置、设备和介质,基于机器学习的分类任务,确定分类标签;原始数据中每行数据有其对应的一个分类标签。根据设定的伪行数据配置比例、原始数据中包含的所有分类标签的类型分布,设置各伪行数据对应的伪行分类标签。一个伪行数据由多个元素构成,一个元素即为一列数据中的一个数据。不同类型的列数据有其各自对应的数据生成规则。每种类型的分类标签下所依赖的各列数据会有所不同。依据伪行分类标签、原始数据中各列数据的分布情况以及各列数据对应的数据生成规则,构造伪行数据,使得伪行数据基本不会对原始数据的分布情况造成影响,从而降低了伪行数据对机器学习分类的影响。