一种对数据进行采样的方法和装置

    公开(公告)号:CN109508350A

    公开(公告)日:2019-03-22

    申请号:CN201811307544.7

    申请日:2018-11-05

    Abstract: 本申请公开了一种对数据进行采样的方法,包括:对所有用户的初始数据进行抽样处理,其中,每个用户对应一个数据向量;对于各个抽样用户及其对应的数据向量,计算每个抽样用户与其他所有抽样用户的向量间的相似性,得到每个抽样用户对应的距离矩阵;根据所有抽样用户对应的距离矩阵,对抽样用户对应的数据向量进行数据聚类;根据聚类结果,选择最重要的一个或多个特征;将所有用户的初始数据按照选择出的所有特征分成k类,并在每一类中进行抽样处理,并保证不同类中的抽样数差值最小。应用本申请,能够实现均匀采样,提高数据处理的准确性。

    配用电数据检索方法和系统

    公开(公告)号:CN108460072A

    公开(公告)日:2018-08-28

    申请号:CN201711434002.1

    申请日:2017-12-26

    Abstract: 本发明公开了一种配用电数据检索方法和系统,其中的方法包括:在分布式数据库或文件系统中划分多个数据存储节点,将配用电数据存储在与其对应的数据存储节点中;索引集群系统通过分布式索引建立模式建立并管理与数据存储节点以及配用电数据相对应的索引分片文件;查询集群系统通过分布式检索模式并基于索引分片文件对数据存储节点中存储的配用电数据进行检索并提供检索结果;本发明的配用电数据检索方法和系统,能够解决海量数据的索引问题,具有高吞吐量、高扩展性、高并发性、高容错性等特点,适合对超大数据集的并发访问,降低检索主节点的负载,并可以提高查询服务的可用性,增加服务的响应速度,改善用户的查询体验。

Patent Agency Ranking