一种基于Spark框架进行全文检索的实现方法

    公开(公告)号:CN107943952A

    公开(公告)日:2018-04-20

    申请号:CN201711194929.2

    申请日:2017-11-24

    Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

    一种视频关键帧提取算法
    12.
    发明公开

    公开(公告)号:CN107832694A

    公开(公告)日:2018-03-23

    申请号:CN201711047162.0

    申请日:2017-10-31

    CPC classification number: G06K9/00744 G06F16/783

    Abstract: 本发明公开了一种视频关键帧提取算法,属于信息安全技术领域。该算法首先计算当前输入视频流中某帧的水平方向的黑边宽度和垂直方向的黑边高度,以及该帧有效图像区域的宽度和高度;然后计算该帧的有效图像区域的特征信息,并与上一帧比较,计算差异度;差异度大于阈值时,将该差异帧中的数据与缓存区中的每帧数据分别比较,计算该帧的相似度;该差异帧的相似度大于阈值时,将该差异帧与缓存区中的该某帧视为相似,将非差异帧计数加1,达到非差异帧累计数最大值,输出该帧为差异帧并写入缓存区,统计该帧的Y值的方差值和UV值的方差值,并输出关键帧和空白帧。本发明算法通过C语言实现,可应用于多视频多线程的调用,适应性强,高效快速。

    恶意代码检测系统训练方法及装置、电子设备和存储介质

    公开(公告)号:CN115168852A

    公开(公告)日:2022-10-11

    申请号:CN202210689851.6

    申请日:2022-06-17

    Abstract: 本公开公开了一种恶意代码检测系统训练方法及装置、电子设备和存储介质,涉及信息处理领域。主要技术方案包括:基于第一训练检测模型,得到第二训练恶意代码样本;对得到的第二训练恶意代码样本进行标注,用其对第三训练恶意代码样本进行更新;重复获取第二训练恶意代码样本,迭代更新第三训练恶意代码样本,以使用最新的第三训练恶意代码样本对第一训练检测模型进行训练;当满足训练终止条件后,得到预设检测模型。与相关技术相比,重复获取第二训练恶意代码样本,迭代更新第三训练恶意代码样本,以使用最新的第三训练恶意代码样本对第一训练检测模型进行训练,进而得到了基于深度学习方法且提供训练样本动态标注功能的恶意代码检测系统。

    基于自适应异构多分类模型的钓鱼网站检测方法和系统

    公开(公告)号:CN108965245B

    公开(公告)日:2021-04-13

    申请号:CN201810549417.1

    申请日:2018-05-31

    Abstract: 本发明提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型,对多分类模型进行训练,该模型输入是各基分类算法的输入,输出是样本标签,每个基分类算法从样本记录中提取相应的特征作为输入;采用机器学习算法求解模型参数,并用测试集进行测试和优化,最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明实现对钓鱼网站实时检测,并提高了钓鱼网站检测的准确性和稳定性。

    一种基于GPU的视频处理方法

    公开(公告)号:CN107920253A

    公开(公告)日:2018-04-17

    申请号:CN201711047172.4

    申请日:2017-10-31

    Abstract: 本发明公开了一种基于GPU的视频处理方法,涉及音视频处理技术领域。首先从视频数据源端接收视频数据并存储在缓存队列中,依次读取视频数据进行解封装处理;然后对解封装处理后格式为H.264的视频数据,按顺序读取一帧,并解码为YUV格式数据;将解码出来的YUV数据进行内存映射,并转化为NV12格式后,利用视频转码模块再次转换为YUV420p格式;并分别计算YUV420p格式视频数据的Y分量和UV分量的特征值;最后将两个特征值拷贝到CPU侧的系统内存中,并筛选关键帧。筛选出的关键帧利用基于opencl的CPU和GPU之间的内存拷贝技术拷贝到CPU侧的系统内存中,由存储专用线程将关键帧的YUV数存储到文件。本发明实现了视频处理的加速,提升了视频处理的效率,并有效降低了CPU的资源消耗。

    代码检测模型的更新方法及装置、电子设备和存储介质

    公开(公告)号:CN115130093A

    公开(公告)日:2022-09-30

    申请号:CN202210609619.7

    申请日:2022-05-31

    Inventor: 强倩

    Abstract: 本公开公开了代码检测模型的更新方法及装置、电子设备和存储介质,涉及信息处理领域,主要技术方案包括:将第一代码样本输入代码检测模型;代码检测模型执行第一代码样本的特征提取,得到第一代码样本对应的第一样本特征;根据第一样本特征与代码检测模型中的第一特征向量的关系,生成第二特征向量;根据所述第二特征向量对所述代码检测模型进行更新。与相关技术相比,本公开实施例通过使第一特征向量与第二特征向量合并,能在原有代码检测模型的基础上更新代码检测模型的特征向量,代码检测模型通过其含有的特征向量来判断代码样本是否为恶意代码,进而实现了当代码检测模型需要对新类型恶意代码检测时,无需重新训练代码检测模型。

    基于网页关键内容相似性分析的钓鱼网站发现方法及系统

    公开(公告)号:CN108737423B

    公开(公告)日:2020-07-14

    申请号:CN201810505426.0

    申请日:2018-05-24

    Abstract: 本发明公开了一种基于网页关键内容相似性分析的钓鱼网站发现方法和系统,属于计算机网络安全领域。本方法包括网页关键内容特征提取、网页关键内容特征聚类和网页关键内容相似性计算。相应提供的系统包括网页主题分类器、关键内容提取器、特征抽取及聚合模块、相似度计算引擎和样本特征管理模块。通过网页主题分类器聚焦可疑的URL,防止不必要的特征过拟合,然后对待分析网页进一步通过关键内容提取器和相似度计算引擎来获得判断结果。本发明应用在网络关口URL检测,每个URL网页的检测时间为微秒级,正确率在97.5%以上,可实现快速、准确、稳定的钓鱼网站检测。

Patent Agency Ranking