一种海量结构化日志数据全局索引管理方法及装置

    公开(公告)号:CN103544261B

    公开(公告)日:2016-06-22

    申请号:CN201310484663.0

    申请日:2013-10-16

    Abstract: 本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子系统中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子系统中的相应数据节点发送远程调用请求;数据存储子系统汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了系统的查询多样性和查询效率,并且提高了系统的可扩展性。

    一种针对竖排文本的检测方法及装置

    公开(公告)号:CN115410207B

    公开(公告)日:2023-08-29

    申请号:CN202110588830.0

    申请日:2021-05-28

    Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。

    一种海量非结构化数据的数据存储方法

    公开(公告)号:CN104731864A

    公开(公告)日:2015-06-24

    申请号:CN201510088785.7

    申请日:2015-02-26

    CPC classification number: G06F17/30628 G06F17/30132

    Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。

    一种面向应用场景的国产化系统评估方法

    公开(公告)号:CN116069618A

    公开(公告)日:2023-05-05

    申请号:CN202211447427.7

    申请日:2022-11-18

    Abstract: 本发明公开了一种面向应用场景的国产化系统评估方法。本方法为:1)构建针对应用系统的通用业务架构,包括:流量处理业务模块、数据转发业务模块、数据处理业务模块、数据存储业务模块、虚拟化平台业务模块、云平台业务模块;2)选取一业务系统并将其划分为多个业务模块;业务系统部署于多个服务器,每台服务器上均运行国产化操作系统,所述国产化操作系统中运行至少一个业务模块;3)通用业务架构中的每一模块分别获取各所述服务器的国产化操作系统中运行所述业务模块时的指标值;4)根据每一业务模块的指标值与对应业务模块的指标阈值进行比较,根据各指标值的比较结果得到一综合评估值,根据综合评估值确定国产化操作系统的评估结果。

Patent Agency Ranking