-
公开(公告)号:CN117194423A
公开(公告)日:2023-12-08
申请号:CN202311138400.4
申请日:2023-09-05
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/22 , G06F16/23 , G06F16/242
Abstract: 本发明公开了一种面向持久化存储的索引结构,属于数据库领域,包括删除标记位向量及通过逻辑块索引连接的第一层和第二层;逻辑块索引为对逻辑块构建的索引,逻辑块为对含有N个数据的原始数组按预定顺序排列后得到的临时数组进行划分后得到的k个数据块;第一层包括k+1个位向量,每个位向量均包括N个用于表示原始数组中的某个数据是否存在于某个逻辑块中的比特;第二层包括具有N个位置序号的位置标号序列,位置序号表示临时数组中相对应的数据在原始数组中的位置序号;删除标记位向量包括N个用于表示原始数组中相对应的数据是否已被移除的比特。本发明既避免了对原文件的索引结构进行更新,同时还可以保证索引的有效性。
-
公开(公告)号:CN117032564A
公开(公告)日:2023-11-10
申请号:CN202310853977.7
申请日:2023-07-13
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
Abstract: 本发明属于数据库技术领域,具体为一种面向双层索引结构Bindex的数据写入优化方法。本发明首先提供双层索引结构Bindex第二层的混合结构,其包括位置标号序列按照区域扩展而成的多组数据内存块,以及每组数据内存块对应的块信息数组;同一块内的存储的值保持无序;块信息数组包括数据块的最小值、块内存储值的数量和块内存地址;针对该结构的写入优化方法包含无序写入及批量更新:无序写入是写入新数据时确定数据范围后不进行排序,直接将对应位置序号插入在对应数据块尾部;在此基础上应用批量更新,一次性处理大批量新增数据。本发明避免了原索引数据块写入新数据过程中的排序开销,提高了索引结构的写入性能,同时还保证了索引的有效性。
-
公开(公告)号:CN116662454A
公开(公告)日:2023-08-29
申请号:CN202310401084.9
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/2453 , G06F18/23213 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。
-
公开(公告)号:CN118568129A
公开(公告)日:2024-08-30
申请号:CN202410628960.6
申请日:2024-05-21
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F18/27 , G06F18/25 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本发明属于数据库查询技术领域,具体为一种基于混合自回归模型与采样的查询基数估计方法。本发明包括构建一种多路并行掩码自编码模型,该模型可以更好地学习数据中的联合概率分布;一种离线连接键采样的基数估计方法,该方法通过依照连接键在多表连接中进行单表采样,以完成基数估计;一种将自回归模型与连接键采样混合的基数估计方法,可以结合两者的基数估计优势,提高基数估计方法的整体准确性。本发明可以减少传统自回归模型进行基数估计时的查询高分位误差,提高基数估计的稳定性,提高查询优化器生成的查询计划质量,加速数据库的查询执行。
-
公开(公告)号:CN116521719A
公开(公告)日:2023-08-01
申请号:CN202310401083.4
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06N3/084 , G06N3/04 , G06F16/22
Abstract: 本发明属于数据库查询技术领域,具体为一种基于代价估计的查询优化系统。本发明包括系统信息提取器、基于深度学习的代价估计模型;系统信息器将数据库管理系统的存储、执行模型等信息处理成为结构化数据以供模型使用;基于深度学习的代价估计模型能够根据不同的系统信息,通过历史执行记录建立从查询到代价的映射关系,从而对未知查询的代价进行估计;代价估计模型的训练采用分层训练策略,可以帮助模型从成批的训练数据中进行学习,提高模型训练的内存利用率,减小训练震荡,加速模型收敛。本发明可以帮助数据库优化器选择正确执行计划,最终提高数据库整体的查询执行效率。
-
公开(公告)号:CN115794880A
公开(公告)日:2023-03-14
申请号:CN202211379710.0
申请日:2022-11-04
Applicant: 复旦大学
IPC: G06F16/2455 , G06F16/2458 , G06N3/0464 , G06N3/0455 , G06N3/08 , G06N3/047
Abstract: 本发明属于数据分析技术领域,具体为一种面向近似查询处理的和积网络与残差神经网络混合模型。本发明包括两个模块:基于和积网络的无监督学习模块,针对数据集的不同样本,训练多个相互独立的和积网络模型来捕捉数据的整体分布规律,每个和积网络模型等价于原始数据集的一个密度估计器,可以通过该模型计算出聚合查询的近似结果;基于残差神经网络的监督学习模块,针对一个给定的查询,将该查询在训练好的多个和积网络中预测出的查询结果以及和积网络预测过程中的特征向量作为输入,用查询的真实结果作为标签训练深度神经网络,当用户查询输入时,该模型能够输出经过校正后具有更高准确性的近似查询结果。本发明在大幅降低查询执行时延的同时提供具有较高准确性的近似查询结果。
-
公开(公告)号:CN108197154B
公开(公告)日:2021-07-23
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F16/28
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
公开(公告)号:CN110619004A
公开(公告)日:2019-12-27
申请号:CN201910750750.3
申请日:2019-08-15
Applicant: 复旦大学
IPC: G06F16/2458
Abstract: 本发明属于数据分析技术领域,具体为一种数据挖掘中数据分析方法的推荐方法。本发明的分析方法推荐方法主要包含四个部分:(1)基于数据集的最近邻推荐;(2)基于分析方法的协同过滤;(3)神经协同过滤;(4)推荐结果的融合。本发明通过基于数据分析的交互历史,挖掘数据集和分析方法的隐语义作为推荐依据,最终返回适合数据集的分析方法。本发明可帮助用户快速找到合适的分析方法,挖掘数据集中的信息。
-
-
公开(公告)号:CN101179594B
公开(公告)日:2012-09-05
申请号:CN200710170790.8
申请日:2007-11-22
Applicant: 复旦大学
Abstract: 本发明发球自组织网络技术领域,具体是一种无线自组织网络环境中基于服务距离的服务发现方法。包括服务广告报文的定义和产生算法、服务信息缓存的构造和更新算法和基于服务距离的高效服务发现方法。本方法不仅避免了广播式服务发现方法存在的可伸缩性差、网络负载重、无法适应无线自组织网络环境的问题,而且,利用服务距离信息使用户能更快地找到更稳定可靠的服务,提高了服务发现的效率。
-
-
-
-
-
-
-
-
-