提取动态网页信息的方法、装置及计算机可读存储介质

    公开(公告)号:CN112035722A

    公开(公告)日:2020-12-04

    申请号:CN202010771233.7

    申请日:2020-08-04

    Inventor: 董颖 卞超轶

    Abstract: 本发明实施例公开了一种提取动态网页信息的方法、装置及计算机可读存储介质,其中该方法,包括:确定动态网页上每个第一标签的访问路径;访问所述动态页面的种子页,进行信息提取;针对每个第一标签分别执行第一操作,所述第一操作包括:根据该第一标签的访问路径访问该第一标签以触发页面变化,对变化后的页面进行信息提取;其中,第一标签是指会触发页面变化的标签,每个第一标签的访问路径是指在所述动态网页的种子页到该第一标签之间的每层页面上需要访问的标签的索引序列组成的索引序列组合,所述动态网页的种子页是指该动态网页统一资源定位符URL对应的首页面。如此,能够实现对动态网页中功能不同但URL相同的页面进行信息提取。

    一种恶意域名检测方法及系统

    公开(公告)号:CN106713303A

    公开(公告)日:2017-05-24

    申请号:CN201611178704.3

    申请日:2016-12-19

    Inventor: 卞超轶 周涛

    CPC classification number: H04L63/1416 H04L61/1511

    Abstract: 本发明公开了一种恶意域名检测的方法及系统,解析待检测域名的时空特征,并将待检测域名的时空特征输入到预设机器学习模型组中,得到预设的机器学习模型组输出的所述待检测域名的初步检测结果;其中,机器学习模型组中包括至少一个机器学习模型,所述机器学习模型已基于解析日志中域名的时空特征进行了训练;并基于预设的规则和所述初步检测结果,得到域名的最终检测结果。因此一方面通过域名的时空特征对机器学习模型进行训练得到的机器学习模型对待检测的域名的时空特征进行识别,提高了对恶意域名识别的准确性;另一方面可以根据需要选择更合适的机器学习模型对域名进行识别,对域名的识别更具有针对性,进而也提高了识别恶意域名的准确度。

    提取动态网页信息的方法、装置及计算机可读存储介质

    公开(公告)号:CN112035722B

    公开(公告)日:2023-10-13

    申请号:CN202010771233.7

    申请日:2020-08-04

    Inventor: 董颖 卞超轶

    Abstract: 本发明实施例公开了一种提取动态网页信息的方法、装置及计算机可读存储介质,其中该方法,包括:确定动态网页上每个第一标签的访问路径;访问所述动态页面的种子页,进行信息提取;针对每个第一标签分别执行第一操作,所述第一操作包括:根据该第一标签的访问路径访问该第一标签以触发页面变化,对变化后的页面进行信息提取;其中,第一标签是指会触发页面变化的标签,每个第一标签的访问路径是指在所述动态网页的种子页到该第一标签之间的每层页面上需要访问的标签的索引序列组成的索引序列组合,所述动态网页的种子页是指该动态网页统一资源定位符URL对应的首页面。如此,能够实现对动态网页中功能不同但URL相同的页面进行信息提取。

    一种在类别样本数量不均衡情况下的恶意样本检测方法

    公开(公告)号:CN114548305A

    公开(公告)日:2022-05-27

    申请号:CN202210187808.X

    申请日:2022-02-28

    Abstract: 本申请提供一种在类别样本数量不均衡情况下的恶意样本检测方法,其步骤包括:对类别样本数量不均衡的原始样本进行特征提取,得到特征提取后的样本作为训练数据;使用分类算法得到训练数据的至少两个分类预测结果;其中,所述训练数据包括未标记数据;设置采样参数组集,所述采样参数组集由若干采样参数组构成,每个采样参数组包括对训练数据中各类别样本进行采样时使用的采样参数;将采样参数组集中,使得所有分类预测结果之间相似度最高的采样参数组作为最优采样参数组;根据最优采样参数组对训练数据进行采样。使用本申请能够同时对多数类进行降采样以及对少数类的进行过采样,达到提高了检测的泛化能力。

Patent Agency Ranking