-
公开(公告)号:CN109508350B
公开(公告)日:2022-04-12
申请号:CN201811307544.7
申请日:2018-11-05
IPC: G06F16/2458
Abstract: 本申请公开了一种对数据进行采样的方法,包括:对所有用户的初始数据进行抽样处理,其中,每个用户对应一个数据向量;对于各个抽样用户及其对应的数据向量,计算每个抽样用户与其他所有抽样用户的向量间的相似性,得到每个抽样用户对应的距离矩阵;根据所有抽样用户对应的距离矩阵,对抽样用户对应的数据向量进行数据聚类;根据聚类结果,选择最重要的一个或多个特征;将所有用户的初始数据按照选择出的所有特征分成k类,并在每一类中进行抽样处理,并保证不同类中的抽样数差值最小。应用本申请,能够实现均匀采样,提高数据处理的准确性。
-
公开(公告)号:CN109508350A
公开(公告)日:2019-03-22
申请号:CN201811307544.7
申请日:2018-11-05
IPC: G06F16/2458
Abstract: 本申请公开了一种对数据进行采样的方法,包括:对所有用户的初始数据进行抽样处理,其中,每个用户对应一个数据向量;对于各个抽样用户及其对应的数据向量,计算每个抽样用户与其他所有抽样用户的向量间的相似性,得到每个抽样用户对应的距离矩阵;根据所有抽样用户对应的距离矩阵,对抽样用户对应的数据向量进行数据聚类;根据聚类结果,选择最重要的一个或多个特征;将所有用户的初始数据按照选择出的所有特征分成k类,并在每一类中进行抽样处理,并保证不同类中的抽样数差值最小。应用本申请,能够实现均匀采样,提高数据处理的准确性。
-