-
公开(公告)号:CN104484472A
公开(公告)日:2015-04-01
申请号:CN201410850225.6
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30575
Abstract: 本发明提供种混合多种异构数据源的数据库集群,包括处理层和存储层,所述存储层包括多种异构数据源,每个异构数据源作为一个虚拟节点,每个所述虚拟节点可为单个数据库实例或者是数据库集群,或者是单个虚拟节点或多个虚拟节点;所述处理层包括命令解析模块、查询优化模块、元数据管理模块、执行计划模块、执行器模块和事务管理模块。本发明具有的优点和积极效果是:能够使用户通过统一的界面访问“异构数据源”(如:用户已购买的数据库产品或数据库集群等),并将“异构数据源”以虚拟节点形式纳入统一的“集群”资源管理,从而实现灵活的在“异构数据源”组成的“集群”中进行数据迁移、复制、伸缩等操作。
-
公开(公告)号:CN104376087A
公开(公告)日:2015-02-25
申请号:CN201410665567.0
申请日:2014-11-19
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30584 , G06F9/5083
Abstract: 本发明涉及一种采用交叉备份的分布式数据库负载均衡的计算方法,包括:初始集群无机器损坏时保证集群中各个机器负载均衡;有1台机器损坏后,对请求分发机制适当调整保证集群内各个机器负载均衡;有多台机器损坏后,若所有数据分片均保证有大于1台可用机器时,对请求分发机器做适当的调整,最大限度的保证集群内各个机器负载均衡。本发明可以从宏观的角度,从概率的角度,粗粒度的保证采用交叉备份的分布式数据库的负载均衡,特别是当有机器损坏时,保证可工作机器合理的均摊负载压力,避免了某些机器负载过高导致短时间内更多机器损坏的情况,避免了短板问题的出现。
-
公开(公告)号:CN108268611B
公开(公告)日:2021-03-26
申请号:CN201711473670.5
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供一种基于MapReduce的k‑means文本聚类的方法及装置。包括,删除离群点,最大距离法选取初始簇中心,构造迭代中的簇中心计算公式和测度函数,设计基于MapReduce框架的大规模文本并行聚类模型。采用本发明的方法,可以有效解决传统K‑means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题,提高算法的并行能力和可扩展性。
-
公开(公告)号:CN104516978B
公开(公告)日:2018-11-27
申请号:CN201410851266.7
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种用于数据库入侵检测领域的压缩中间候选频繁项集的方法,包括如下步骤:1)依据目标事务数目值,从事务数据库中筛选出项目数不小于目标事务数目值的事务作为新事务数据库;2)使用Apriori算法的连接步骤和剪枝步骤,扫描新事务数据库,计算产生频繁1‑项集L(1);3)找出频繁1‑项集L(1)中的项目排在前面的与目标事务数目值相同数值的几项候选项集;4)扫描候选项集,得到目标事务数目值的频繁项集。本发明具有的优点和积极效果是:能免去按照自然数顺序,从1开始,逐个生成中间候选频繁项集和中间频繁项集的操作,大幅提高了数据挖掘搜索效率;达到减少数据库扫描工作量,从而大幅提高了计算频繁项集的速度。
-
公开(公告)号:CN104408151B
公开(公告)日:2018-11-27
申请号:CN201410727737.3
申请日:2014-12-03
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明旨在提供一种在超大规模列存数据库中有效提升函数查询过滤数据的方法。包括,将列存数据按块存储,对每个数据块(Data Cell)建立基于统计信息的简单索引及基于函数的函数索引。当使用函数进行查询时,基于统计信息的简单索引无法有效过滤数据,而基于函数的函数索引则能有效过滤,提升数据库的整体性能。本发明所取得的有益效果是在超大规模数据量的列存数据库上提高了数据过滤的效率,并可根据用户实际场景灵活扩展。同时不需要用户手动干预,函数索引能自动维护。
-
公开(公告)号:CN104504123B
公开(公告)日:2018-10-16
申请号:CN201410850163.9
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种基于日志拆分的目录复制实现方法,此方法包含:在生成复制公有日志时,对每个从目录分别产生一个公有日志文件,并分别启动一个复制进程,处理公有日志和私有日志,进行向指定从目录的操作,进而清理复制日志;采用上述技术方案,使得向多个从目录的复制可以独立地进行,避免了部分从目录的复制问题对其它从目录复制的影响,从而提高目录复制的稳定性和可靠性,且从目录与私有日志文件的一一对应,避免了因个别从目录复制操作存在问题而造成的复制进程不能清理复制私有日志文件的问题,进而避免了复制日志的积压,保证了从目录复制操作的正常进行。
-
公开(公告)号:CN104484472B
公开(公告)日:2018-10-16
申请号:CN201410850225.6
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供种混合多种异构数据源的数据库集群,包括处理层和存储层,所述存储层包括多种异构数据源,每个异构数据源作为一个虚拟节点,每个所述虚拟节点可为单个数据库实例或者是数据库集群,或者是单个虚拟节点或多个虚拟节点;所述处理层包括命令解析模块、查询优化模块、元数据管理模块、执行计划模块、执行器模块和事务管理模块。本发明具有的优点和积极效果是:能够使用户通过统一的界面访问“异构数据源”(如:用户已购买的数据库产品或数据库集群等),并将“异构数据源”以虚拟节点形式纳入统一的“集群”资源管理,从而实现灵活的在“异构数据源”组成的“集群”中进行数据迁移、复制、伸缩等操作。
-
公开(公告)号:CN108460074A
公开(公告)日:2018-08-28
申请号:CN201711470231.9
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种基于BloomFilter原理的多列索引在列存数据库中的实现方法,包括:基于BloomFilter原理的多列索引在列存数据库中的创建方法,及在列存数据库查询中的使用方法。本发明实现的多列索引具有以下优点:不存储实际值,空间占用小;索引查询速度快,耗时固定;一个索引即可支持任意列的组合查询;BloomFilter中的假阳率(False positives)可控。本发明的有益效果是能最大程度地排除不命中的记录,减少扫描所需的磁盘访问,从而提升数据库的性能。
-
公开(公告)号:CN104484470B
公开(公告)日:2018-06-08
申请号:CN201410847871.7
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种数据库集群元数据管理方法,将元数据管理命令序列化,通过在数据库集群中增加一个实体,在进行集群元数据的统一管理,该实体与组成集群的每个集群节点连接,专门用于元数据管理,对集群的元数据变更进行统一管理。采用本发明中的方法,可以保证数据库集群中集群元数据的一致性,解决集群失效节点重新加入集群时集群元数据不一致问题,以及扩容集群时在新增节点上重建集群元数据信息,进而提高数据库集群的高可用性。
-
公开(公告)号:CN104537078B
公开(公告)日:2018-02-27
申请号:CN201410851219.2
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种基于滑块的目录索引优化方法,包括以下步骤:(1)在目录索引中设置动态检索滑块,且在该检索滑块内增加可配置该检索滑块大小的参数;(2)在检索系统中输入查询条件,配置文件根据查询条件为目录索引属性设置参数;(3)目录索引启动时根据所启动目录索引的属性读取配置文件中的参数;(4)根据检索滑块内参数的设置,重新计算目录索引中的索引个数;(5)根据滑块参数及目录索引中的索引个数做循环,计算该目录索引当前属性当前类别匹配规则的索引值;(6)统计检索结果;采用上述技术方案,可以根据业务需要指定滑块大小,避免any类型的索引要进行的每字符错位计算,可以快速完成索引创建过程,又能保证查询的效率。
-
-
-
-
-
-
-
-
-