-
公开(公告)号:CN111078877B
公开(公告)日:2023-03-21
申请号:CN201911235575.0
申请日:2019-12-05
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 马良庄
IPC: G06F16/35
Abstract: 本说明书实施例提供一种数据处理方法和装置、文本分类模型的训练方法和装置,以及文本分类方法和装置,将第一待处理文本信息划分为N组,根据其中N‑1组训练文本信息训练第一文本分类模型,并通过所述第一文本分类模型对剩余第一待处理文本信息进行预测,获取所述剩余第一待处理文本信息的预测类别,根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤,以从所述剩余第一待处理文本信息中获取训练文本信息。通过本说明书实施例方案,能够从大量的第一待处理文本信息中自动过滤掉低质量数据,得到高质量的训练数据,通过该训练数据来训练文本分类模型,能够提高模型的分类准确性。
-
公开(公告)号:CN111340150A
公开(公告)日:2020-06-26
申请号:CN202010442269.0
申请日:2020-05-22
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 马良庄
Abstract: 本说明书实施例提供了一种用于对第一分类模型进行训练的方法及装置。在该方法的每次循环训练过程中,将来自于第一本地数据的当前训练样本数据提供给第一分类模型和各个第二分类模型,得到第一预测结果和第二预测结果,基于第一预测结果和各个第二预测结果确定当前损失函数,并在不满足循环结束条件时调整第一分类模型,在满足循环结束条件时输出第一分类模型。所述第一本地数据是隐私数据,所述各个第二分类模型是基于第二本地数据预先训练好的,该第二本地数据也是隐私数据。
-
公开(公告)号:CN111309908A
公开(公告)日:2020-06-19
申请号:CN202010088116.0
申请日:2020-02-12
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 马良庄
Abstract: 本说明书实施例提供了一种文本数据处理方法及装置,该方法包括:对第一文本数据进行遮蔽处理,并将经过遮蔽处理后的第一文本数据提供给文本预测模型,以根据文本数据中的各个遮蔽部分的上下文来得到各个遮蔽部分的至少一个预测文本,再使用所得到的至少一个预测文本来替换对应的遮蔽部分,以得到至少一个第二文本数据。
-
公开(公告)号:CN111143552A
公开(公告)日:2020-05-12
申请号:CN201911236894.3
申请日:2019-12-05
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 马良庄
IPC: G06F16/35
Abstract: 本说明书实施例提供一种文本信息的类别预测方法和装置、服务器,通过采用多个第一文本分类模型对待处理文本信息进行预测,再融合各个第一文本分类模型输出的第一预测类别,以获取所述待处理文本信息的真实类别。由于各个第一文本分类模型中的至少一者为欠拟合模型,因此,通过包含欠拟合模型的多个第一文本分类模型来代替原有的单个文本分类模型,使得欠拟合模型能够对最终的预测结果进行约束,提高了模型的泛化能力,从而提高了分类结果的准确性。
-
公开(公告)号:CN111078877A
公开(公告)日:2020-04-28
申请号:CN201911235575.0
申请日:2019-12-05
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 马良庄
IPC: G06F16/35
Abstract: 本说明书实施例提供一种数据处理方法和装置、文本分类模型的训练方法和装置,以及文本分类方法和装置,将第一待处理文本信息划分为N组,根据其中N-1组训练文本信息训练第一文本分类模型,并通过所述第一文本分类模型对剩余第一待处理文本信息进行预测,获取所述剩余第一待处理文本信息的预测类别,根据所述剩余第一待处理文本信息的预测类别与真实类别对所述剩余第一待处理文本信息进行过滤,以从所述剩余第一待处理文本信息中获取训练文本信息。通过本说明书实施例方案,能够从大量的第一待处理文本信息中自动过滤掉低质量数据,得到高质量的训练数据,通过该训练数据来训练文本分类模型,能够提高模型的分类准确性。
-
-
-
-