-
公开(公告)号:CN110795473A
公开(公告)日:2020-02-14
申请号:CN201911106961.X
申请日:2019-11-13
Applicant: 哈尔滨工业大学 , 电子科技大学广东电子信息工程研究院
IPC: G06F16/2458 , G06F16/242 , G06F16/27 , G06F9/445
Abstract: 本发明属于检索技术领域,具体涉及一种基于自举法的加速搜索方法,包括S1.将Hadoop架构下的用户搜索请求设置为三元组Q(Op,D,ρ),其中,Op表示用户对目标数据集合D的搜索操作,ρ为用户设置的搜索精度下限值;S2.从数据集合D中抽取初始样本S,然后以S为论域进行m次有放回采样{S1,...,Sm};S3.对步骤S2中实施操作Op(D)产生的m个结果{Op(S1),...,Op(Sm)}进行近似计算,得到变异系数的相对误差值;S4.根据步骤S3中的相对误差进行评估,得出满足用户近似精度的搜索结果。与现有技术相比,本发明采用自举法进行抽样,有效地降低了抽样过程中样本的数量,同时由于只需要从原始数据集中抽取一个较小的随机均匀抽样,因此,可以显著降低采样过程的磁盘成本。