-
公开(公告)号:CN114911844B
公开(公告)日:2024-04-05
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/0442
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN114911844A
公开(公告)日:2022-08-16
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-