面向全文检索的分级存储方法及装置

    公开(公告)号:CN109885642B

    公开(公告)日:2021-11-02

    申请号:CN201910119254.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。

    一种语种训练数据获得方法及装置

    公开(公告)号:CN109741731B

    公开(公告)日:2020-12-29

    申请号:CN201910015434.1

    申请日:2019-01-08

    Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。

    非日志模式的数据库集群副本构建方法及装置

    公开(公告)号:CN109918229A

    公开(公告)日:2019-06-21

    申请号:CN201910119274.5

    申请日:2019-02-18

    Abstract: 本发明公开了一种非日志模式的数据库集群副本构建方法及装置,方法包括:加载工具直连第一个副本,进行数据实时入库加载,并以事务为单位构建同步记录;复制流程调度器加载元数据,检查节点状态,构造多个副本的拓扑关系,启动各个节点上的复制执行器,将构建的拓扑信息携带在复制处理消息中通过消息总线发送给复制执行器;复制执行器从消息总线获取复制处理消息,解析拓扑信息,查找到数据源,通过自身副本的全局唯一GID标识以及数据源的同步记录跟踪表,检查增量数据,如果没有,则循环等待,否则执行下步;复制执行器计算增量数据的同步范围信息,读取给定范围的数据,加载至本身节点上的副本,并构造本次数据复制的同步记录,执行步骤3。

    基于流数据处理的大数据平台监控系统

    公开(公告)号:CN109885453A

    公开(公告)日:2019-06-14

    申请号:CN201910119278.3

    申请日:2019-02-18

    Abstract: 本发明公开了一种基于流数据处理的大数据平台监控系统,所述系统包括:数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示。

    支持多数据库引擎的数据生命周期管理的实现方法

    公开(公告)号:CN109815219A

    公开(公告)日:2019-05-28

    申请号:CN201910119266.0

    申请日:2019-02-18

    Abstract: 本发明公开了一种支持多数据库引擎的数据生命周期管理的实现方法,所述方法包括:通过Hive MetaStore服务,创建具有生命周期的依赖Hive元数据的Hive表、HBase表和ElasticSearch表;HBase、ElasticSearch集群对SSD盘和HDD盘进行存储;定期调用生命周期管理服务,读取Hive MetaStore服务中表元数据的生命周期信息和分区信息,计算是否存在过期的分区数据,如果存在,根据表元数据信息判断表的类型,依据不同表数据存储类型,调用相应的数据生命周期管理服务,根据表元数据中规则,自动对过期的数据进行删除或迁移。

    一种面向混合任务的调度系统

    公开(公告)号:CN104965762B

    公开(公告)日:2018-11-27

    申请号:CN201510432283.1

    申请日:2015-07-21

    Abstract: 本发明提供一种面向混合任务的调度系统,包括模型解析器、执行序列生成器、信息收集器和代理模块;模型解析器与执行序列生成器单向连接,执行序列生成器与信息收集器和代理模块之间均双向连接。本发明提供的面向混合任务的调度系统,任务调度时考虑了任务执行的周期性时序特征,即对于需要长时间不间断运行的任务可实现“一次调度、多次运行”,避免了对一类任务的频繁调度、下发,降低了任务调度带来的额外计算成本,极大降低了任务的频繁下发给网络通信带来的压力;并将如何为同一组周期性任务分配最少的资源来执行看作一个背包问题,提出了相应的算法,以求得最小的虚拟资源集合来完成任务的执行。

    一种基于软件定义的公共互联网接入系统和方法

    公开(公告)号:CN105119787B

    公开(公告)日:2018-10-23

    申请号:CN201510432281.2

    申请日:2015-07-21

    Abstract: 本发明提供一种基于软件定义的公共互联网接入系统和方法,接入系统包括客户端、接入代理模块、网络适配器、用户中心和调度中心;用户通过客户端与用户中心和调度中心连接,同时还通过客户端与接入代理模块连接,接入代理模块通过网络适配器与公共互联网接入资源连接。本发明实现了将互联网变成按需分配的公共基础设施的目标,满足全国任何用户终端、业务系统、云计算平台对的公共互联网接入资源的访问需求;实现了全网数据转发的集中控制和基于软件定义的数据转发,可实现数据包按照预先编排的转发策略转发到全国任意互联网入口;实现了业务系统与物理位置的分离,可以有效解决复杂业务系统分布式跨地域部署建设成本高、维护成本高的问题。

Patent Agency Ranking