-
公开(公告)号:CN114722088A
公开(公告)日:2022-07-08
申请号:CN202210477174.1
申请日:2022-05-03
Applicant: 南京大学
IPC: G06F16/2457 , G06F16/2453 , G06N20/00
Abstract: 本发明公开了一种基于机器学习模型样本生成的在线近似查询方法。首先,对数据表中的元组进行标注,赋予标签。然后,将元组以及标签编码为向量形式。在此基础上,使用数据表元组向量训练机器学习模型,从而学习数据底层分布信息,因此可以生成数据表样本元组。接着,解析查询语句以获取查询关键信息,并根据样本分配算法计算各类样本元组的需要生成数量。最后,根据样本分配结果,利用训练完毕的机器学习模型生成相应数量的样本元组以组成样本表,并基于样本表估计近似查询结果。本发明可以减少近似查询中数据读取开销,在保证近似查询结果精度的前提下提高近似查询效率,解决现有近似查询方法采样效率低、结果误差大的问题。