-
公开(公告)号:CN116662454A
公开(公告)日:2023-08-29
申请号:CN202310401084.9
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/2453 , G06F18/23213 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。
-
公开(公告)号:CN118568129A
公开(公告)日:2024-08-30
申请号:CN202410628960.6
申请日:2024-05-21
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F18/27 , G06F18/25 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本发明属于数据库查询技术领域,具体为一种基于混合自回归模型与采样的查询基数估计方法。本发明包括构建一种多路并行掩码自编码模型,该模型可以更好地学习数据中的联合概率分布;一种离线连接键采样的基数估计方法,该方法通过依照连接键在多表连接中进行单表采样,以完成基数估计;一种将自回归模型与连接键采样混合的基数估计方法,可以结合两者的基数估计优势,提高基数估计方法的整体准确性。本发明可以减少传统自回归模型进行基数估计时的查询高分位误差,提高基数估计的稳定性,提高查询优化器生成的查询计划质量,加速数据库的查询执行。
-