-
公开(公告)号:CN107220347A
公开(公告)日:2017-09-29
申请号:CN201710390490.4
申请日:2017-05-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术股份有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
-
公开(公告)号:CN106484815A
公开(公告)日:2017-03-08
申请号:CN201610849786.3
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30442 , G06F17/30321 , G06F17/30427
Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法,属于海量数据统计分析领域。本发明通过五方面来进行优化:引入lucene作为可选存储介质;对每个数据文件的检索字段增加bloomfilter索引(bf索引);对不同检索场景的划分及最优存储介质的选择;在进行lucene检索场景时,将类SQL语句转换为lucene语句;对lucene存储介质和bf索引添加有效性的会话级设置。在检索时,首先判定bf索引会话级的有效性,通过bf索引缩小待检索数据文件列表,再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗,大幅度提升了海量数据的检索性能。
-
公开(公告)号:CN105871705A
公开(公告)日:2016-08-17
申请号:CN201610397804.9
申请日:2016-06-07
Applicant: 北京赛思信安技术股份有限公司
IPC: H04L12/58
CPC classification number: H04L51/043 , H04L51/08 , H04L51/12
Abstract: 本发明公开了一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,包括以下几个步骤:步骤一:分解电子邮件内容;步骤二:对电子邮件内容中各个部分进行重复判断;步骤三:对电子邮件内容进行重新组织;本发明可以对海量的电子邮件进行内容重复的判断,有效的降低了海量电子邮件处理过程中因电子邮件处理内容处理带来的资源开销。
-
公开(公告)号:CN105631003A
公开(公告)日:2016-06-01
申请号:CN201511001092.6
申请日:2015-12-28
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30321 , G06F17/30289 , G06F17/30424
Abstract: 本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。
-
公开(公告)号:CN109871502B
公开(公告)日:2020-10-30
申请号:CN201910047920.1
申请日:2019-01-18
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。
-
公开(公告)号:CN109710572A
公开(公告)日:2019-05-03
申请号:CN201811638552.X
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的文件分片方法,属于计算机领域。首先从系统中读取对大文件分片的配置文件和按分片粒度进行读取的配置文件,对某个大文件进行分片。文件内容的写入读取按分片的顺序进行,通过多个并列线程将每个分片的内容以独立的键值存入HBase数据表中。同时将每个分片的元数据信息以新增列的方式存储在HBase元数据信息表中。然后若文件内容的写入读取是指定片,按照指定的分片编号写入读取文件内容;若文件内容的写入读取是随机读取,设定随机读取的字节开始位置和读取内容大小;最后当服务端异常导致写入或读取中断,在服务恢复后重新上传或读取断点的分片即可。本发明使大文件存储更加高效可靠,具有较强的实用性和适配性。
-
公开(公告)号:CN105631003B
公开(公告)日:2019-02-22
申请号:CN201511001092.6
申请日:2015-12-28
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/22 , G06F16/245
Abstract: 本发明提供了一种支持海量数据分组统计的智能索引构建、查询及维护方法,属于大数据处理技术领域。本方法建立了智能索引的数据组织结构,以使智能索引支持海量数据分组统计;智能索引的数据组织结构包括索引元数据和索引数据,索引元数据是创建索引的依据,包括分组列簇和统计列簇,索引数据是对原始数据构建的索引。本方法在写入数据时在内存中实时创建智能索引,利用智能索引进行分组统计的操作,也可快捷对智能索引进行删除。本发明实现了对海量数据的实时自动创建索引,在对海量数据进行分组统计时极大降低了磁盘I/O和计算时间,从而大幅提高了分组统计效率,并实现了对索引数据全生命周期的自动管理。
-
公开(公告)号:CN107943952A
公开(公告)日:2018-04-20
申请号:CN201711194929.2
申请日:2017-11-24
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
-
公开(公告)号:CN106649462A
公开(公告)日:2017-05-10
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN106446168A
公开(公告)日:2017-02-22
申请号:CN201610849787.8
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法,属于信息处理领域;具体为:首先,初始化系统启动参数;加载器管理模块为每个线程各申请一个加载器;每个线程各创建一个数据解析模块,对客户端数据进行解析并传输给加载器;每个加载器分别调用数据校验模块进行检验;然后,将检验后的字段数据缓存到数据缓存模块,进行管理并传输给数据传输模块;通过分布式节点监听模块获取每个分布式数据仓库的监听状态,并发送给数据传输模块;最后,数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率,符合目前的应用需求,具有广阔的应用前景。
-
-
-
-
-
-
-
-
-