-
公开(公告)号:CN106708926B
公开(公告)日:2020-10-30
申请号:CN201611001399.0
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F40/216 , G06F40/289 , G06F16/35
Abstract: 本发明提出一种支持海量长文本数据分类的分析模型的实现方法,属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法,一方面有效降低文本分类时每篇文章的词向量空间的维度,降低文本分类计算的时间复杂度,提升算法效率,满足大数据背景下海量长文本分类时的性能需求;同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障,最后采用朴素贝叶斯分类算法,能够准确的将文本进行较好的训练,实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题,具有广泛的应用前景。
-
公开(公告)号:CN107483384B
公开(公告)日:2020-07-14
申请号:CN201610404248.3
申请日:2016-06-08
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种网络数据交互方法及装置,本发明对从网络侧获取的网络数据进行分类,并对分类后的网络数据完成相应的处理后,通过共享内存的方式与后端BT系统进行数据交互,从而解决了相关技术中大规模的动态接入的连接的管理方法效率较低的问题,提高了系统运行效率,提升了服务器的性能。
-
公开(公告)号:CN106446168B
公开(公告)日:2019-11-01
申请号:CN201610849787.8
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/25
Abstract: 本发明公开了一种面向分布式数据仓库的高效加载客户端实现方法,属于信息处理领域;具体为:首先,初始化系统启动参数;加载器管理模块为每个线程各申请一个加载器;每个线程各创建一个数据解析模块,对客户端数据进行解析并传输给加载器;每个加载器分别调用数据校验模块进行检验;然后,将检验后的字段数据缓存到数据缓存模块,进行管理并传输给数据传输模块;通过分布式节点监听模块获取每个分布式数据仓库的监听状态,并发送给数据传输模块;最后,数据传输模块将收到的缓存数据发送给健康的分布式数据仓库。本发明提升了整个分布式数据仓库的使用效率和数据加载效率,符合目前的应用需求,具有广阔的应用前景。
-
公开(公告)号:CN106528535B
公开(公告)日:2019-04-26
申请号:CN201611001398.6
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。
-
公开(公告)号:CN105138907B
公开(公告)日:2019-04-23
申请号:CN201510435009.X
申请日:2015-07-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F21/55
Abstract: 本发明提供一种主动探测被攻击网站的方法和系统,所述方法包括:(1)获取待检测网站信息并生成需要检测的任务文件;(2)将所述任务文件发送到对应的检测微引擎进行检测;(3)对所述任务文件中的每个网站进行安全检测并生成结果文件;(4)获得并解析所述结果文件,得到结果信息,若有网站被攻击信息则向管理员报警。本发明通过检测微引擎检测网站是否受到各种网站攻击,并且使用轮询机制,各个模块同时运行,可以使整个系统有很大的吞吐量,可以检测大批量的网站。
-
公开(公告)号:CN109284431A
公开(公告)日:2019-01-29
申请号:CN201810901757.6
申请日:2018-08-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/953 , G06F16/958
Abstract: 本发明涉及一种从微信中发现特定领域微信公众号的方涉,属于数据挖掘技术领域。所述方法包括:关联已知特定领域微信公众号的账号主体、搜索微信公众号的账号信息和文章信息,生成候选特定领域微信公众号列表,利用构建的待发现特定领域文章分类模型对其文章信息进行判断,确保其文章内容和特定领域相关,完成从微信中发现特定领域微信公众号。本发明方法解决了微信公众号账号信息和文章内容不符的问题,扩展了待发现目标的来源,且在初始配置后自循环发现,不需要长期人工干预,从而有效提高特定领域微信公众号发现的准确性、全面性和自增长性。
-
公开(公告)号:CN104901850B
公开(公告)日:2018-08-31
申请号:CN201510322046.X
申请日:2015-06-12
Applicant: 国家计算机网络与信息安全管理中心广东分中心
Abstract: 本发明公开了一种恶意代码终端感染机器网络定位方法。包括骨干网定位步骤、信息中心节点出口定位步骤和感染总段机器定位步骤。很好的克服了常见恶意代码感染数据从互联网侧到最终感染终端在网络定位方面遇到的困难,其在不依赖安全检测设备的情况下,非常方便的实现了不同网络层面下的恶意代码终端感染机器的网络定位。
-
公开(公告)号:CN107483384A
公开(公告)日:2017-12-15
申请号:CN201610404248.3
申请日:2016-06-08
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种网络数据交互方法及装置,本发明对从网络侧获取的网络数据进行分类,并对分类后的网络数据完成相应的处理后,通过共享内存的方式与后端BT系统进行数据交互,从而解决了相关技术中大规模的动态接入的连接的管理方法效率较低的问题,提高了系统运行效率,提升了服务器的性能。
-
公开(公告)号:CN106484815A
公开(公告)日:2017-03-08
申请号:CN201610849786.3
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30442 , G06F17/30321 , G06F17/30427
Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法,属于海量数据统计分析领域。本发明通过五方面来进行优化:引入lucene作为可选存储介质;对每个数据文件的检索字段增加bloomfilter索引(bf索引);对不同检索场景的划分及最优存储介质的选择;在进行lucene检索场景时,将类SQL语句转换为lucene语句;对lucene存储介质和bf索引添加有效性的会话级设置。在检索时,首先判定bf索引会话级的有效性,通过bf索引缩小待检索数据文件列表,再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗,大幅度提升了海量数据的检索性能。
-
公开(公告)号:CN106326435A
公开(公告)日:2017-01-11
申请号:CN201610728966.6
申请日:2016-08-25
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/248
Abstract: 本发明一种对大数据可视化自动解析和装配的系统及方法,属于大数据领域;所述系统包括:自动装配子系统、智能解析子系统和智能分析学习子系统;智能分析学习子系统是基础,智能解析子系统是依赖智能分析学习子系统的,同时,自动装配子系统依赖智能解析子系统;所述方法具体为:针对某个事件的海量数据,首先通过智能分析学习子系统进行整体建模,通过专家经验或机器学习得到分析结果数据,经智能解析子系统进行自动数据处理和分析操作,得到解析数据,经过自动装配子系统进行自动可视化;优点在于:将海量数据通过一个无人参与的装配过程对数据进行可视化呈现;适应了大数据时代数据量的爆炸式增长需求,对数据信息进行实时更新。
-
-
-
-
-
-
-
-
-