-
公开(公告)号:CN119998818A
公开(公告)日:2025-05-13
申请号:CN202380070608.9
申请日:2023-09-21
Applicant: 微软技术许可有限责任公司
Inventor: D·阿尔瓦雷斯-梅利斯 , 范娇姣 , N·富西
Abstract: 本文总体上讨论了用于生成合成数据集的设备、系统和方法。一种方法包括:获得第一训练标记数据集;获得第二训练标记数据集;确定从目标标记数据集到第一训练标记数据集的最优传输(OT)映射;确定从目标标记数据集到第二训练标记数据集的OT映射;基于OT映射,在由分布空间中第一训练标记数据集和第二训练标记数据集形成的广义测地线包中,标识分布空间中接近目标标记数据集的点;以及通过基于分布空间中第一训练标记数据集和第二训练标记数据集的概率分布表示与点之间的距离来组合第一训练标记数据集和第二训练标记数据集,产生合成标记ML数据集。
-
公开(公告)号:CN116569188A
公开(公告)日:2023-08-08
申请号:CN202180065409.X
申请日:2021-06-30
Applicant: 微软技术许可有限责任公司
Inventor: D·阿尔瓦雷斯-梅利斯 , N·富西
IPC: G06N20/00
Abstract: 总体上,在此讨论的是通过使数据集朝向目标数据集流动而用于机器学习(ML)的设备、系统和方法。一种方法可以包括:接收对包括第一特征标签配对的第一数据集操作的请求,从多个数据集标识第二数据集,第二数据集包括第二特征标签配对,确定第一特征标签配对和第二特征标签配对之间的距离,以及使用基于所确定的距离操作的数据集目标来使第一数据集流动,以生成经优化的数据集。
-