-
公开(公告)号:CN114764603A
公开(公告)日:2022-07-19
申请号:CN202210493240.4
申请日:2022-05-07
Applicant: 支付宝(杭州)信息技术有限公司 , 清华大学
Abstract: 本说明书实施例提供一种针对用户分类模型、业务预测模型确定特征的方法及装置,在针对用户分类模型确定特征的方法中,基于各候选表各自的累积分数,从各候选表中选取目标候选表,并从目标候选表中,选取若干目标用户特征。将各目标用户特征添加到第k‑1轮基础表,得到中间基础表。基于中间基础表中的用户特征和用户类别标签,训练当前的用户分类模型。对训练后的用户分类模型进行性能评估,并至少基于得到的第一性能指标值,确定目标候选表的第k轮分数。根据第k轮分数,确定目标候选表的更新的累积分数,以及确定第k轮基础表,以用于下一轮迭代;在多轮迭代后,将最后一轮基础表中的用户特征,作为针对用户分类模型确定的最终用户特征。
-
公开(公告)号:CN114764603B
公开(公告)日:2024-07-02
申请号:CN202210493240.4
申请日:2022-05-07
Applicant: 支付宝(杭州)信息技术有限公司 , 清华大学
IPC: G06F18/24 , G06F18/214 , G06Q10/0637
Abstract: 本说明书实施例提供一种针对用户分类模型、业务预测模型确定特征的方法及装置,在针对用户分类模型确定特征的方法中,基于各候选表各自的累积分数,从各候选表中选取目标候选表,并从目标候选表中,选取若干目标用户特征。将各目标用户特征添加到第k‑1轮基础表,得到中间基础表。基于中间基础表中的用户特征和用户类别标签,训练当前的用户分类模型。对训练后的用户分类模型进行性能评估,并至少基于得到的第一性能指标值,确定目标候选表的第k轮分数。根据第k轮分数,确定目标候选表的更新的累积分数,以及确定第k轮基础表,以用于下一轮迭代;在多轮迭代后,将最后一轮基础表中的用户特征,作为针对用户分类模型确定的最终用户特征。
-
公开(公告)号:CN111767325B
公开(公告)日:2020-11-24
申请号:CN202010914905.5
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/2458 , G06F16/28 , G06K9/62
Abstract: 本申请实施例提出基于深度学习的多源数据深度融合方法,包括获取待融合关系型数据表;构建深度学习模型,导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。采用词向量的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。
-
公开(公告)号:CN111767326A
公开(公告)日:2020-10-13
申请号:CN202010914927.1
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/2458 , G06F16/28 , G06F16/22 , G06K9/62
Abstract: 本申请属于数据生成技术领域,具体涉及一种基于生成式对抗网络的关系型表格数据的生成方法及装置。其中的方法包括:获取包括可分类数据、数字型数据、顺序型数据的原始的关系型表格数据;选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据。本申请中的方法能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据,且数据的分布在表格层面拟合真实数据集。
-
公开(公告)号:CN111767326B
公开(公告)日:2020-11-27
申请号:CN202010914927.1
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/2458 , G06F16/28 , G06F16/22 , G06K9/62
Abstract: 本申请属于数据生成技术领域,具体涉及一种基于生成式对抗网络的关系型表格数据的生成方法及装置。其中的方法包括:获取包括可分类数据、数字型数据、顺序型数据的原始的关系型表格数据;选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据。本申请中的方法能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据,且数据的分布在表格层面拟合真实数据集。
-
公开(公告)号:CN111767324B
公开(公告)日:2020-11-17
申请号:CN202010914904.0
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/2458 , G06K9/62
Abstract: 本申请实施例提出了一种智能关联的自适应数据分析方法及装置,包括处理初始高维时间序列得到时序数据,构建每条时序数据相对于与其他时序数据的关联性向量,基于关联性向量构造时间序列关系图模型;对于每一条时序数据关联性向量进行动态异常监测,基于监测结果对关联性向量进行更新;根据关联性向量的更新结果判断是否需要更新关系图模型,如果需要则执行更新关系图模型的操作;基于更新后的关系图模型相应包括聚类和关联时序数据在内的用户查询请求,给出查询结果。根据全局向量和局部向量残差来调整更新速度的策略能对短暂的时序数据异常有较强的抵抗能力,也能对时序数据潜在分布变化有较好的适应力,很好的满足了需求。
-
公开(公告)号:CN111813800B
公开(公告)日:2020-12-04
申请号:CN202010914395.1
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/242 , G06F16/2458 , G06F16/28
Abstract: 本发明涉及一种基于深度强化学习的流式数据实时近似计算方法,方法包括:根据数据表格确定样本属性,样本属性为离散型属性或者数值型属性或者混合型属性;离散型属性的数据表格中所有数据项的取值范围均有限,且均以字符串形式保存;数值型属性的数据表格中所有数据项的取值范围均无限,且均以浮点型数字的形式保存;混合型属性的数据表格中一部分数据项的取值范围有限,且以字符串形式保存,另一部分数据项的取值范围无限,且以浮点型数字的形式保存;基于样本属性生成样本的数据表;根据生成的数据表构建全局统一的样本;当获取到查询请求后,根据查询请求确定选样方案;根据选样方案,对全局统一的样本进行近似查询估计,得到近似结果。
-
公开(公告)号:CN111767325A
公开(公告)日:2020-10-13
申请号:CN202010914905.5
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/2458 , G06F16/28 , G06K9/62
Abstract: 本申请实施例提出基于深度学习的多源数据深度融合方法,包括获取待融合关系型数据表;构建深度学习模型,导入训练数据对待融合关系型数据表中的内容进行词向量化处理,对处理后的数据进行模式匹配;基于数据对应实体之间的相似度对待融合关系型数据表内的数据进行分层抽样,将抽样得到数据导入预设的结构模型中进行基于词向量的整合处理,得到训练后的数据分桶模型,基于数据分桶模型进行基于实体的数据分桶处理;对每个桶中的数据进行是否指代同一实体的判断,将指代同一实体的数据进行数据融合,得到由融合后数据构成的数据表。采用词向量的方式对字符串数据建模,该方法可以同时对字符串的文本和语义进行建模,提高对脏数据的容忍度。
-
公开(公告)号:CN115146130A
公开(公告)日:2022-10-04
申请号:CN202210846893.6
申请日:2022-07-19
Applicant: 清华大学
IPC: G06F16/9035 , G06F16/906 , G06Q10/04 , G06Q10/06
Abstract: 本申请涉及一种数据获取方法、装置、计算机设备和存储介质。所述方法包括:获取外部数据源的多个数据;将各所述数据进行筛选聚类处理,得到不同类别的数据组;通过数据筛选网络,分别从各所述类别的数据组中筛选目标数据,并将各所述目标数据进行组合,得到目标数据组。采用本方法能够提升在外部数据源的多个数据中获取目标数据的精确度。
-
公开(公告)号:CN111813800A
公开(公告)日:2020-10-23
申请号:CN202010914395.1
申请日:2020-09-03
Applicant: 国网浙江省电力有限公司营销服务中心 , 清华大学 , 国网浙江省电力有限公司
IPC: G06F16/242 , G06F16/2458 , G06F16/28
Abstract: 本发明涉及一种基于深度强化学习的流式数据实时近似计算方法,方法包括:根据数据表格确定样本属性,样本属性为离散型属性或者数值型属性或者混合型属性;离散型属性的数据表格中所有数据项的取值范围均有限,且均以字符串形式保存;数值型属性的数据表格中所有数据项的取值范围均无限,且均以浮点型数字的形式保存;混合型属性的数据表格中一部分数据项的取值范围有限,且以字符串形式保存,另一部分数据项的取值范围无限,且以浮点型数字的形式保存;基于样本属性生成样本的数据表;根据生成的数据表构建全局统一的样本;当获取到查询请求后,根据查询请求确定选样方案;根据选样方案,对全局统一的样本进行近似查询估计,得到近似结果。
-
-
-
-
-
-
-
-
-