基于WEB信息的关系数据的属性值同一性判定方法

    公开(公告)号:CN107480130B

    公开(公告)日:2020-09-08

    申请号:CN201710608887.6

    申请日:2017-07-25

    Abstract: 本发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法,用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand‑Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图;使用Durand‑Pasari提取最大公共子图的公共模式;根据关系模式匹配的结果判定属性值的相似度,提高了属性值同一性判定方法的准确率。

    多数据点阈值检测方法

    公开(公告)号:CN101968758B

    公开(公告)日:2012-10-10

    申请号:CN201010527612.8

    申请日:2010-10-28

    Inventor: 刘文洁

    Abstract: 本发明公开了一种多数据点阈值检测方法,用于解决现有的自律计算系统性能分析方法决策效率低的技术问题。技术方案是通过划分性能数据的统计区间,对设备的性能指标在一个统计区间内,进行连续的阈值检测,当整个时间段内的多次检测值均超过边界值时,才认为性能故障发生,从而避免了无效决策所导致的系统开销,提高了自律系统的决策效率。与背景技术的单点判断相比,系统无效操作减少了75%。

    面向海量分布式数据的非等值连接方法

    公开(公告)号:CN106021386B

    公开(公告)日:2019-02-05

    申请号:CN201610312145.4

    申请日:2016-05-12

    Abstract: 本发明公开了一种面向海量分布式数据的非等值连接方法,用于解决现有非等值连接方法效率低的技术问题。技术方案是在进行两表的非等值连接之前,首先根据连接条件选择合适的过滤规则,然后计算两表连接字段的最大值和最小值,根据最大值和最小值对两表中的所有记录进行扫描,将与输出结果无关的记录进行过滤,仅仅对过滤后的数据进行笛卡尔积的计算,最后根据连接条件对笛卡尔积的结果进行二次对比,筛选出符合连接条件的记录。该方法能够在做笛卡尔积之前,过滤掉大量的不符合连接条件的记录,可以有效地降低Reducer的工作量,提高了非等值连接的查询效率。

    面向海量分布式数据库的批量插入方法

    公开(公告)号:CN105335482B

    公开(公告)日:2018-07-03

    申请号:CN201510660858.5

    申请日:2015-10-14

    Abstract: 本发明公开了一种面向海量分布式数据库的批量插入方法,用于解决现有海量结构化数据存储管理系统OceanBase不支持批量插入功能的技术问题。技术方案是采用多批次循环插入策略以及插入阈值优化策略,首先根据插入条件获取需要插入的数据,然后将获取的数据进行处理,转换为Oceanbase能够识别的插入格式,根据多批次循环插入思想以及批量插入语义构造插入数据计划,利用插入阈值优化策略在执行插入数据计划时进行优化,提高插入效率。海量分布式数据库的批量插入方法在Oceanbase中实现了批量插入功能,性能优于利用程序进行插入的方法。

    多数据点阈值检测方法

    公开(公告)号:CN101968758A

    公开(公告)日:2011-02-09

    申请号:CN201010527612.8

    申请日:2010-10-28

    Inventor: 刘文洁

    Abstract: 本发明公开了一种多数据点阈值检测方法,用于解决现有的自律计算系统性能分析方法决策效率低的技术问题。技术方案是通过划分性能数据的统计区间,对设备的性能指标在一个统计区间内,进行连续的阈值检测,当整个时间段内的多次检测值均超过边界值时,才认为性能故障发生,从而避免了无效决策所导致的系统开销,提高了自律系统的决策效率。与背景技术的单点判断相比,系统无效操作减少了75%。

    基于WEB信息的关系数据的属性值同一性判定方法

    公开(公告)号:CN107480130A

    公开(公告)日:2017-12-15

    申请号:CN201710608887.6

    申请日:2017-07-25

    Abstract: 本发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法,用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand-Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图;使用Durand-Pasari提取最大公共子图的公共模式;根据关系模式匹配的结果判定属性值的相似度,提高了属性值同一性判定方法的准确率。

    面向海量分布式关系数据库的游标构造方法

    公开(公告)号:CN104504001B

    公开(公告)日:2017-08-08

    申请号:CN201410748863.7

    申请日:2014-12-04

    Abstract: 本发明公开了一种面向海量分布式关系数据库的游标构造方法,用于解决现有OceanBase中SQL处理流程对于游标功能构造缺失的技术问题。技术方案是以SQL92标准语法为依据,基于海量分布式数据库的架构,设计了完整的游标构造方法,根据游标常用关键字,构造了统一的语法树、逻辑计划和物理计划,并设计了游标SQL的执行流程。该方法能够完成分布式数据库的游标功能并在大数据量查询时,具有较优的查询性能。通过与商用数据库DB2在100万数据集上的游标执行性能对比,本发明方法构造的游标性能比DB2的查询速度快70倍左右。

    面向海量分布式数据库的嵌套查询方法

    公开(公告)号:CN104090962B

    公开(公告)日:2017-03-29

    申请号:CN201410333217.4

    申请日:2014-07-14

    Abstract: 本发明公开了一种面向海量分布式数据库的嵌套查询方法,用于解决现有Oceanbase的SQL查询方法中不支持嵌套查询的技术问题。技术方案是通过构建查询树和查询引擎实现嵌套子查询功能。在小数据集查询时,直接绑定子查询结果集到物理计划。当大数据量查询时,启用两阶段过滤策略,使用BloomFilter在ChunkServer上进行初次过滤,过滤后的数据在MergeServer进行二次精确匹配,并采用HashMap来存储需要对比的结果集。由于BloomFilter能快速过滤掉大量无关数据,而HashMap又能快速匹配符合条件的结果集。因此,本发明方法在实现了嵌套查询的基础上,大大提高了SQL查询速度。

    面向海量分布式关系数据库的游标构造方法

    公开(公告)号:CN104504001A

    公开(公告)日:2015-04-08

    申请号:CN201410748863.7

    申请日:2014-12-04

    CPC classification number: G06F16/284 G06F16/27

    Abstract: 本发明公开了一种面向海量分布式关系数据库的游标构造方法,用于解决现有OceanBase中SQL处理流程对于游标功能构造缺失的技术问题。技术方案是以SQL92标准语法为依据,基于海量分布式数据库的架构,设计了完整的游标构造方法,根据游标常用关键字,构造了统一的语法树、逻辑计划和物理计划,并设计了游标SQL的执行流程。该方法能够完成分布式数据库的游标功能并在大数据量查询时,具有较优的查询性能。通过与商用数据库DB2在100万数据集上的游标执行性能对比,本发明方法构造的游标性能比DB2的查询速度快70倍左右。

    数据库一致性错误的重要度判定方法

    公开(公告)号:CN107633099B

    公开(公告)日:2021-02-02

    申请号:CN201710981214.5

    申请日:2017-10-20

    Abstract: 本发明公开了一种数据库一致性错误的重要度判定方法,用于解决现有方法实用性差的技术问题。技术方案是首先根据C‑Graph和D‑Graph的定义构建关系表的C‑Graph和D‑Graph超图,利用这两种超图描述数据库中关系表的属性之间的依赖关系以及属性值之间的依赖关系;再根据给出的函数依赖约束间关系的分类对表中的函数依赖约束关系进行归类;找出函数依赖违规并根据给出的函数依赖违规间关系的分类对函数依赖违规间的关系进行归类;利用公式计算函数依赖违规的效益值;根据计算得到的函数依赖违规效益值对函数依赖违规重要度进行排序。本发明降低了因修复一个函数依赖违规而引起另一些函数依赖违规带来的代价,实用性好。

Patent Agency Ranking