一种面向双层索引结构Bindex的数据写入优化方法

    公开(公告)号:CN117032564A

    公开(公告)日:2023-11-10

    申请号:CN202310853977.7

    申请日:2023-07-13

    Abstract: 本发明属于数据库技术领域,具体为一种面向双层索引结构Bindex的数据写入优化方法。本发明首先提供双层索引结构Bindex第二层的混合结构,其包括位置标号序列按照区域扩展而成的多组数据内存块,以及每组数据内存块对应的块信息数组;同一块内的存储的值保持无序;块信息数组包括数据块的最小值、块内存储值的数量和块内存地址;针对该结构的写入优化方法包含无序写入及批量更新:无序写入是写入新数据时确定数据范围后不进行排序,直接将对应位置序号插入在对应数据块尾部;在此基础上应用批量更新,一次性处理大批量新增数据。本发明避免了原索引数据块写入新数据过程中的排序开销,提高了索引结构的写入性能,同时还保证了索引的有效性。

    基于分组掩码自回归模型的查询基数估计方法

    公开(公告)号:CN116662454A

    公开(公告)日:2023-08-29

    申请号:CN202310401084.9

    申请日:2023-04-15

    Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。

    一种基于代价估计的查询优化系统

    公开(公告)号:CN116521719A

    公开(公告)日:2023-08-01

    申请号:CN202310401083.4

    申请日:2023-04-15

    Abstract: 本发明属于数据库查询技术领域,具体为一种基于代价估计的查询优化系统。本发明包括系统信息提取器、基于深度学习的代价估计模型;系统信息器将数据库管理系统的存储、执行模型等信息处理成为结构化数据以供模型使用;基于深度学习的代价估计模型能够根据不同的系统信息,通过历史执行记录建立从查询到代价的映射关系,从而对未知查询的代价进行估计;代价估计模型的训练采用分层训练策略,可以帮助模型从成批的训练数据中进行学习,提高模型训练的内存利用率,减小训练震荡,加速模型收敛。本发明可以帮助数据库优化器选择正确执行计划,最终提高数据库整体的查询执行效率。

    一种面向近似查询处理的和积网络与残差神经网络混合模型

    公开(公告)号:CN115794880A

    公开(公告)日:2023-03-14

    申请号:CN202211379710.0

    申请日:2022-11-04

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种面向近似查询处理的和积网络与残差神经网络混合模型。本发明包括两个模块:基于和积网络的无监督学习模块,针对数据集的不同样本,训练多个相互独立的和积网络模型来捕捉数据的整体分布规律,每个和积网络模型等价于原始数据集的一个密度估计器,可以通过该模型计算出聚合查询的近似结果;基于残差神经网络的监督学习模块,针对一个给定的查询,将该查询在训练好的多个和积网络中预测出的查询结果以及和积网络预测过程中的特征向量作为输入,用查询的真实结果作为标签训练深度神经网络,当用户查询输入时,该模型能够输出经过校正后具有更高准确性的近似查询结果。本发明在大幅降低查询执行时延的同时提供具有较高准确性的近似查询结果。

    交互式文档探索的在线子集主题建模方法

    公开(公告)号:CN108197154B

    公开(公告)日:2021-07-23

    申请号:CN201711291086.8

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。

    数据挖掘中数据分析方法的推荐方法

    公开(公告)号:CN110619004A

    公开(公告)日:2019-12-27

    申请号:CN201910750750.3

    申请日:2019-08-15

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种数据挖掘中数据分析方法的推荐方法。本发明的分析方法推荐方法主要包含四个部分:(1)基于数据集的最近邻推荐;(2)基于分析方法的协同过滤;(3)神经协同过滤;(4)推荐结果的融合。本发明通过基于数据分析的交互历史,挖掘数据集和分析方法的隐语义作为推荐依据,最终返回适合数据集的分析方法。本发明可帮助用户快速找到合适的分析方法,挖掘数据集中的信息。

    大型语料库上的快速文本聚类方法

    公开(公告)号:CN108228721A

    公开(公告)日:2018-06-29

    申请号:CN201711290927.3

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。

    无线自组织网络环境中基于服务距离的服务发现方法

    公开(公告)号:CN101179594B

    公开(公告)日:2012-09-05

    申请号:CN200710170790.8

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本发明发球自组织网络技术领域,具体是一种无线自组织网络环境中基于服务距离的服务发现方法。包括服务广告报文的定义和产生算法、服务信息缓存的构造和更新算法和基于服务距离的高效服务发现方法。本方法不仅避免了广播式服务发现方法存在的可伸缩性差、网络负载重、无法适应无线自组织网络环境的问题,而且,利用服务距离信息使用户能更快地找到更稳定可靠的服务,提高了服务发现的效率。

Patent Agency Ranking