一种基于注意力机制和数据感知的基数估计优化方法

    公开(公告)号:CN118964403A

    公开(公告)日:2024-11-15

    申请号:CN202410991235.5

    申请日:2024-07-23

    Abstract: 本发明属于数据库管理系统查询优化技术领域,具体涉及一种基于注意力机制和数据感知的基数估计优化方法。本发明提出了一种数据感知的双注意力模型,集成了位置注意力模块和交叉注意力模块,然后采用了基于贝叶斯神经网络的学习能力策略,通过蒙特卡洛dropout方法对模型不确定性进行量化,有效提升了模型对多样化数据分布的适应性和泛化能力,最后设计了主动学习数据采样策略,能够智能筛选出对模型训练最为关键的数据样本,优化学习过程,提高预测的准确性,通过集成学习策略,融合了通过不同数据采样策略获得的多个模型,构建了一个强大的集成模型,进一步提升了模型在多种查询工作负载下的泛化能力和稳定性。

    一种适用于任意网格的间断有限元单项式基函数构造方法

    公开(公告)号:CN118446056A

    公开(公告)日:2024-08-06

    申请号:CN202410617080.9

    申请日:2024-05-17

    Inventor: 刘伟 侯孟书

    Abstract: 本发明提供一种适用于任意网格的间断有限元单项式基函数构造方法,属于计算机辅助工程领域,用于混合网格计算。本发明将计算区域剖分成多种非结构网格能够最大化地填充计算区域,基函数的表达式对于不同单元是一致的,可以直接用于非结构混合网格上的间断有限元方法。该基函数空间的质量矩阵对角部分为1,非对角部分的绝对值小于1,满足主对角占优,计算更稳定;基函数在全局坐标下定义的,计算梯度时,不需要使用单元等参变换的雅可比矩阵,更直接、高效。

    一种用于数据库查询优化的物化视图设计方法

    公开(公告)号:CN117112683A

    公开(公告)日:2023-11-24

    申请号:CN202310813122.1

    申请日:2023-07-04

    Abstract: 本发明公开了一种用于数据库查询优化的物化视图设计方法,包括以下步骤,针对PostgreSQL数据库,收集历史查询负载和对应的模式;构建查询负载的Cosette模式;使用Cosette对子查询进行等价识别和合并与频次统计;依据频次和贪心策略推荐出现最多的候选子查询用于实际物化;在PostgreSQL中创建物化视图,通过牛顿冷却定律计算式对物化视图进行打分和替换;在创建的物化视图环境下,对用户的原始查询语句进行查询重写以进行查询优化。本发明对大数据环境下物化视图设计中的视图选择和视图淘汰策略进行了深入分析和研究,提出了基于Cosette查询语句等价证明器的视图选择策略;提出了基于牛顿冷却定律的物化视图打分和淘汰策略。提升了大数据环境下视图设计方案的效率和效果。

    一种分布式数据库的查询优化方法

    公开(公告)号:CN111552710B

    公开(公告)日:2023-07-04

    申请号:CN202010352089.3

    申请日:2020-04-28

    Abstract: 本发明公开了一种分布式数据库的查询优化方法,方法包括:修改LIP算法中的计算操作并下推部分计算,基于多表聚合操作完成后的聚合数据建立哈希表并完成探测,形成分布式的LIP算法;在存储层构建过滤器,数据在TiKV节点完成表扫描和算子操作后,以维度表的每个分区表构建过滤器,构建完成的过滤器通过网络分发到其他节点;修改缺失率计算公式,探测过滤器并计算过滤器的缺失率,按照缺失率对过滤器升序排列;数据经过TiKV节点的算子计算和过滤器勘测后,返回TiKV节点,并在TiDB服务器上进行聚合之后,将聚合后的查询结果返回给客户端。通过本发明能降低次优计划执行对查询性能的影响,提升TiDB在星型模型查询下的性能,并减少分布式环境下的数据网络开销。

    一种基于TaPas模型和图注意力网络的表格问答处理方法

    公开(公告)号:CN115794871A

    公开(公告)日:2023-03-14

    申请号:CN202211563273.8

    申请日:2022-12-07

    Abstract: 本发明属于自然语言处理、表格问答技术领域,尤其是涉及一种基于TaPas模型和图注意力网络的表格问答处理方法。本发明提出使用图注意力神经网络来利用和融合TAPAS预训练模型提取的特征向量。在wikiSQL数据集上的实验结果表明,使用图注意力网络的TAPAS模型的准确度为87.0%,超过仅使用两个全连接层时TAPAS模型的准确度。同时,TAPAS模型对输入的表格问题对的文本长度是有限的,一般为512个符号,这就导致了TAPAS无法处理较大的表格。本发明提出了一种预处理表格的方法,通过提取表格中与问题有关的列,来缩小表格的大小,称这样的预处理操作为快照。在对表格做了快照之后,本发明的模型在WIkiSQL上的准确度上升至89.8%。

    一种基于数据并行策略的分布式深度学习方法及系统

    公开(公告)号:CN109032671A

    公开(公告)日:2018-12-18

    申请号:CN201810662859.7

    申请日:2018-06-25

    CPC classification number: G06F9/3885 G06N3/0454 G06N3/08

    Abstract: 本发明公开了一种基于数据并行策略的分布式深度学习方法及系统,本发明的系统包括一个分布式计算框架Spark、PyTorch深度学习框架、轻量级Web应用框架Flask及pickle、urllib2等相关组件;Spark框架提供集群资源管理、数据分发、分布式计算的功能;PyTorch深度学习框架,提供神经网络定义的接口,提供神经网络上层训练计算的功能;flask框架提供参数服务器功能;urllib2模块负责提供工作节点与参数服务器节点的网络通信功能;pickle负责将神经网络模型中的参数序列化与反序列化,以在网络上进行传输。本发明有效的将PyTorch与Spark结合起来,通过Spark将PyTorch与底层分布式集群解耦、吸取了各自的优势,提供便捷的训练接口,高效实现基于数据并行的分布式训练过程。

Patent Agency Ranking