-
公开(公告)号:CN103020299B
公开(公告)日:2016-01-13
申请号:CN201210591989.9
申请日:2012-12-29
Applicant: 国家计算机网络与信息安全管理中心 , 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种全文检索系统中的高效保存倒排索引的方法,包括:检测索引单元数据长度是否大于阀值K;如果索引单元数据大于n*K且小于(n+1)*K(n为自然数),将索引单元数据从开始部分至n*K的部分存入索引单元数据数据块,将剩余索引单元数据存入B树中;如果索引单元数据等于n*K,将索引单元数据从开始部分至n*K的部分存入索引单元数据数据块;如果索引单元数据小于K,将索引单元数据全部存入B树中。本发明的有益效果是能够有效的提高倒排文档的全文索引的存储效率,提高了数据读取速率,能够方便实现写时复制(Copy On Write)机制,进而提高了数据安全性和读取数据的并发指标。
-
公开(公告)号:CN106355250B
公开(公告)日:2019-04-30
申请号:CN201610777841.2
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06N3/08
Abstract: 本发明提出了一种基于神经网络的判断隐蔽信道的优化方法及装置,该方法包括:建立BP神经网络模型;利用预设隐蔽信道集合对所述BP神经网络模型进行学习训练,训练得到最优权重参数,其中,所述预设隐蔽信道集合包括:伪隐蔽信道和真实隐蔽信道;将训练得到的最优权重参数添加到所述BP神经网络模型,以得到更新后的BP神经网络模型;利用更新后的BP神经网络模型对实际的包括伪隐蔽信道的隐蔽信道集合进行判断,以查找出真实隐蔽信道。本发明基于BP神经网络的反馈式学习方式,在可疑隐蔽信道的集合中找出真实隐蔽信道和伪隐蔽信道。
-
公开(公告)号:CN105530299B
公开(公告)日:2019-04-23
申请号:CN201510925954.8
申请日:2015-12-12
Applicant: 天津南大通用数据技术股份有限公司
IPC: H04L29/08 , G06F16/22 , G06F16/953 , G06F16/11
Abstract: 本发明公开了一种目录服务日志的实现方法,包括配置信息存储模块、配置日志记录模块、信息摘要值分析模块、操作执行模块和配置日志分类模块,方法包括以下步骤:步骤A、读取配置信息存储模块内配置信息;步骤B、所述操作执行模块接收操作请求,并记录操作时间、获取操作主体;步骤C,所述信息摘要值分析模块接收并根据操作执行模块的执行操作类型计算摘要值且进行目录记录;步骤D、所述配置日志分类模块将信息分类发送给配置日志记录模块;步骤E、所述配置日志记录模块接收信息,并按照操作记录类型和记录级别进行分类记录和存储。本发明设计合理,方便监管人员掌握相关动态,确保目录服务运行的安全和稳定,适用性好,实用性强。
-
公开(公告)号:CN108268611A
公开(公告)日:2018-07-10
申请号:CN201711473670.5
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供一种基于MapReduce的k-means文本聚类的方法及装置。包括,删除离群点,最大距离法选取初始簇中心,构造迭代中的簇中心计算公式和测度函数,设计基于MapReduce框架的大规模文本并行聚类模型。采用本发明的方法,可以有效解决传统K-means聚类算法中的局部最优、迭代次数过多、聚类结果不稳定的问题,提高算法的并行能力和可扩展性。
-
公开(公告)号:CN104484471B
公开(公告)日:2017-09-15
申请号:CN201410850174.7
申请日:2014-12-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种高性能数据存储引擎的实现方法。本引擎主要用于批量追加数据,数据更新操作较少,且仅需基于键值的等值查询的使用场景。因而,并发访问方面,本引擎支持单写多读,即一个写操作可以和多个读操作并发,多个写操作之间只能串行执行。本引擎中存储的每一条数据都需要一个键值,多条数据的键值可以重复,读取数据时,只能基于该键值进行等值查询。性能方面,数据入库性能与增量数据的数据量呈线性关系,且仅与增量数据量有关,即使存量数据达到千亿行的规模,入库性能也不会呈现明显衰减。
-
公开(公告)号:CN106446029A
公开(公告)日:2017-02-22
申请号:CN201610777615.4
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/258 , G06F16/248
Abstract: 本发明提供一种可配置数据转换中间件,包括数据库配置模块、输入配置模块、输出配置模块和中间件核心模块,所述的数据库配置模块、输入配置模块、输出配置模块作为中间件核心模块的输入数据流,中间件核心模块将接收的数据信息进行处理后得到图表格式文件,其中:数据库配置模块用于配置数据库的连接信息和用户名密码信息;输入配置模块包含要查询的sql语句及返回的结果集定义;所述的输出配置模块包含需要输出的内容,使用相应的lib库和定义可视化的规则。本发明的有益效果是通过数据转换中间件,任何需要进行数据转换的需求,不在需要经历漫长的研发过程,随时可以通过配置来改变转换数据的格式,通过可视化的方式,快速挖掘数据中蕴含的价值。
-
公开(公告)号:CN106383845A
公开(公告)日:2017-02-08
申请号:CN201610777712.3
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/284 , G06F16/21
Abstract: 本发明提供一种基于共享存储的MPP数据库数据重分布系统,包括共享存储系统、MPP集群管理节点和MPP集群分布式计算节点。一种基于共享存储的MPP数据库数据重分布系统,用于解决现有MPP数据库中数据重分布的性能问题。该方法能够依据分布式存储系统,使MPP数据库在计算节点扩容时,快速实现数据的重分布,避免现有MPP系统数据重分布的性能问题以及业务并发问题,使在线业务几乎不影响。
-
公开(公告)号:CN106383779A
公开(公告)日:2017-02-08
申请号:CN201610777845.0
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
CPC classification number: G06F11/3664 , G06F11/3466
Abstract: 本发明提供了一种数据库适配压力的测试方法及装置,其中,所述方法包括接收测试基础例模板,获取测试环境信息;根据所述测试基础例模板和环境信息生成测试例;执行所述测试例,反馈测试结果。通过根据所述测试基础例模板和环境信息生成测试例,可以根据需求和外界环境自动生成测试方案,可以从整体的角度得出精准的、有效的对比结果,并提高了测试效率。
-
公开(公告)号:CN106372163A
公开(公告)日:2017-02-01
申请号:CN201610777842.7
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种适用于分布式数据库的数据分发方法及装置,其中,所述方法包括:存在数据分发任务时,对所述数据按照最小存储单位进行拆分;计算拆分的最小存储单位数据的分布目标,并根据所述分布目标向节点分发数据。通过对所述数据按照最小存储单位进行拆分;计算拆分的数据的分布目标,向所述分布目标分发数据。由于将物化继续推迟,保持整个数据计算过程尽可能的不物化或少物化数据,降低磁盘I/O。直到最后按照分布规则拆分时才将数据进行物化。减少了预算工作量和系统负担。
-
公开(公告)号:CN106354831A
公开(公告)日:2017-01-25
申请号:CN201610777791.8
申请日:2016-08-31
Applicant: 天津南大通用数据技术股份有限公司
Abstract: 本发明提供了一种切分数据块的加载方法及装置,其中,所述方法包括:判断接收的数据块偏移地址是否等于0,如果等于0,则读取URL中指定的数据;如果大于0,则从偏移地址前第一个换行符至偏移地址后预设空间范围内查找换行符;如果查找到换行符,则丢弃所述换行符前的数据;否则丢弃偏移地址后预设空间范围内所有数据。以使得加载节点可以根据自身的数据块确定数据内容,实现并行数据加载。可以实现各加载节点间的负载均衡和提高总体加载速度。
-
-
-
-
-
-
-
-
-