-
公开(公告)号:CN107220347A
公开(公告)日:2017-09-29
申请号:CN201710390490.4
申请日:2017-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
-
公开(公告)号:CN109815219B
公开(公告)日:2021-11-23
申请号:CN201910119266.0
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。
-
公开(公告)号:CN109902126A
公开(公告)日:2019-06-18
申请号:CN201910119268.X
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/27 , G06F16/2455
Abstract: 本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
-
公开(公告)号:CN109902126B
公开(公告)日:2021-12-07
申请号:CN201910119268.X
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/27 , G06F16/2455
Abstract: 本发明公开了一种支持HIVE自动分区的加载系统及其实现方法,所述方法包括:数据源模块,用于接收数据,对数据进行预备分类,按照数据的来源和数据头上所携带的配置信息进行预处理,得到数据所需要写入的对应的HIVE表,将映射关系放入到数据头中,并将数据放入到数据通道;数据通道,用于作为所述数据源模块和所述输出接口模块之间的数据通道;输出接口模块,用于从数据通道中获取数据,对数据反序列化,进行进一步的校验,依据加载系统在HIVE中所获取的分区设置计算出分区,将与数据所对应的数据库名和表名一起作为数据写入hdfs中的key值,依据该key值,从文件写入管理模块中获取对应的文件句柄,将数据写入至hdfs或者其他存储介质中。
-
公开(公告)号:CN107220347B
公开(公告)日:2020-07-03
申请号:CN201710390490.4
申请日:2017-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: G06F16/338 , G06F16/33
Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
-
公开(公告)号:CN109815219A
公开(公告)日:2019-05-28
申请号:CN201910119266.0
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。
-
-
-
-
-