-
公开(公告)号:CN106649462B
公开(公告)日:2019-11-08
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN105897406B
公开(公告)日:2019-04-12
申请号:CN201610388115.1
申请日:2016-06-02
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: H04L9/06
Abstract: 本发明公开了一种明密文等长的AES加解密的装置,涉及信息安全技术领域。所述装置包括加密模块、解密模块及密钥管理模块;加密模块包括至少一个第一数据输入模块、至少一个第一数据管理模块、至少一个AES算法加密模块和至少一个第一数据发送模块;解密模块包括至少一个第二数据输入模块、至少一个第二数据管理模块、至少一个AES算法解密模块和至少一个第二数据发送模块。密钥管理模块用于存储主机下发的密钥,并且可以根据主机的申请将多组密钥下发给加密模块或解密模块。本发明中各核心模块均通过FPGA进行实现,FPGA通过Pcie接口与主机进行通讯,主机不可读取密钥管理模块所存储的密钥,从而避免了密钥暴露的风险,提高了安全性。
-
公开(公告)号:CN106528536A
公开(公告)日:2017-03-22
申请号:CN201611001691.2
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/2765 , G06F17/2705
Abstract: 本发明公开一种基于词典与文法分析的多语种分词方法,可以实现中、日、韩、粤语等混合文本高效准确的分词处理,并且对于不同时段、不同专业的词可以实现灵活的词库扩展,有效更新词库信息,实现准确、高效的多语种语言文本分词;通过内嵌中日韩粤等语系子分词器、中文量子分词器和西方语系分词器,可以实现每类语种文本判断的准确分词;通过内置的语言片段编码识别机制字段对待分词文本片段进行切分,切分后的每种文本片段对应于一种语系,并使用相应的子分词器进行分词;通过文法分析可以实现西方屈折语的分词、中、日、韩、粤语的smart模式分词,可以处理含有阿拉伯数字信息的文本;同时,本发明还可以实现多种语言混合的文本分词,脱离了分词工具只能对单一语种、个别几个语种分词的局限性,保证文本分词的安全性、准确性、高效性、灵活性、普适性。通过本发明的提
-
公开(公告)号:CN106528535A
公开(公告)日:2017-03-22
申请号:CN201611001398.6
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/275
Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等99种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。
-
公开(公告)号:CN106066843A
公开(公告)日:2016-11-02
申请号:CN201610384154.4
申请日:2016-06-02
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
CPC classification number: G06F13/423 , G06F2213/0024 , H03M7/14
Abstract: 本发明公开了一种高速Base64并行编解码装置,其特征在于,包括用于数据理的编码模块和解码模块,其中编码模块包括:至少一个数据接收模块,至少一个编码控制模块,至少一个数据发送模块,解码模块包括:至少一个数据接收模块,至少一个解码控制模块,至少一个数据发送模块;本发明基于FPGA平台,实现了Base64编解码的16字节的并行处理,提升了Base64编解码的效率,并有效降低了CPU的资源消耗。
-
公开(公告)号:CN106649462A
公开(公告)日:2017-05-10
申请号:CN201610849788.2
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了一种针对海量数据全文检索场景的实现方法,属于海量数据全文检索领域。本发明将Lucene引入检索引擎,对集群中已经存在的数据文件建立Lucene索引文件。在每个存储Lucene索引文件的节点上,设置有一个守护进程对该节点的Lucene索引文件进行维护。本发明优化协调器对fragment的调度机制,对每个执行节点进行计数判断,调整每个fragment的执行位置,以均衡节点资源。本发明还优化全文读取引擎机制,优先采用Lucene进行检索,当出现问题时调用RCFile检索,以保证检索的持续性和正确性。本发明提高了检索性能,可更加合理地利用集群的资源。
-
公开(公告)号:CN106446168A
公开(公告)日:2017-02-22
申请号:CN201610849787.8
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法,属于信息处理领域;具体为:首先,初始化系统启动参数;加载器管理模块为每个线程各申请一个加载器;每个线程各创建一个数据解析模块,对客户端数据进行解析并传输给加载器;每个加载器分别调用数据校验模块进行检验;然后,将检验后的字段数据缓存到数据缓存模块,进行管理并传输给数据传输模块;通过分布式节点监听模块获取每个分布式数据仓库的监听状态,并发送给数据传输模块;最后,数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率,符合目前的应用需求,具有广阔的应用前景。
-
公开(公告)号:CN106446013A
公开(公告)日:2017-02-22
申请号:CN201610730273.0
申请日:2016-08-25
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/334
Abstract: 本发明一种应用于海量数据全文检索系统的测试工具及测试方法,属于海量数据全文检索系统测试方法领域,所述测试工具包括七个模块:顺序写入/读取模块、随机写入/读取模块、循环写入/读取模块、语种识别模块、关键字检索对比模块、删除模块和并发模块;每个模块单独连接海量数据全文检索系统。所述测试方法为:首先,将某个事件的海量数据,顺序写入全文检索系统,并读取文件数据;然后,制定用于进行检索测试的关键参数和测试命令;通过调整不同的参数,对海量数据进行不同的检索测试;最后,将每一条性能测试的结果输出到自定义文件中。优点在于:利用一个工具即可完成多种性能测试,使用简单,具有很强的实用性和广泛的应用前景。
-
公开(公告)号:CN105897405A
公开(公告)日:2016-08-24
申请号:CN201610384213.8
申请日:2016-06-02
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
CPC classification number: H04L9/0816 , H04L9/0631
Abstract: 本发明公开了一种128位对称密钥生成及保护装置,其特征在于,设存储于装置中的种子密钥为A段密钥,由主机下发的种子密钥为B段密钥,合成的结果为密钥,装置包括以下模块:至少一个A段密钥管理模块;至少一个B段密钥管理模块;至少一个MD5算法模块;至少一个SHA1算法模块;至少一个密钥合成管理模块;至少一个密钥存储模块。本发明避免了A段密钥的暴露,从而使本装置具有抵抗软件恶意攻击的能力,本发明中一旦设备脱离主机环境,那么B段密钥与生成后的密钥将自动销毁,从而使本装置具有抵抗硬件恶意攻击的能力,进一步提升了密钥的安全性。
-
公开(公告)号:CN107480685B
公开(公告)日:2021-02-23
申请号:CN201610402954.4
申请日:2016-06-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06K9/62
Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。
-
-
-
-
-
-
-
-
-