一种半自动化的垂直爬虫生成工具及方法

    公开(公告)号:CN104142985B

    公开(公告)日:2018-02-06

    申请号:CN201410352349.1

    申请日:2014-07-23

    Abstract: 本发明公开了一种半自动化的垂直爬虫生成工具及方法,该半自动化的垂直爬虫生成方法包括:用户可以选择新建或采用lex‑yacc技术打开模板,对模板文件进行词法与语法分析,维护符号表,构造出语法分析树;通过寻找词法与语法分析的规律,以及对整个分析过程中数据的存储与处理,根据模板内容构造出树形模板结构;根据要抽取的内容,在树形模板结构中增加、修改或删除模板节点,节点信息中包含跳转关系、XPath表达式、数据存储方式内容;保存模板;该半自动化的垂直爬虫生成工具包括:爬虫自动生成工具模块、爬虫模块。本发明由自动生成模板内容代替人工手动配置模板,使配置模板变得更加方便快捷,可以大大节省相关人员的工作量。

    一种钓鱼网站检测方法
    42.
    发明公开

    公开(公告)号:CN104166725A

    公开(公告)日:2014-11-26

    申请号:CN201410422615.3

    申请日:2014-08-26

    CPC classification number: H04L63/1483

    Abstract: 本发明实施例公开一种钓鱼网站检测方法,应用于计算机网络领域,以解决现有的检测钓鱼网站不能主动检测、误报、漏报、不及时的问题。该方法包括:建立待测网页对应的基于视觉内容的特征向量;将特征向量与预设的特征向量集合里的特征向量进行比对;根据比对结果判断待检测网页是否是钓鱼网站。本发明实施例适用于钓鱼网站检测。

    一种基于图神经网络的非正常关键账户发现方法、系统、设备及存储介质

    公开(公告)号:CN113469804B

    公开(公告)日:2024-03-12

    申请号:CN202110805932.3

    申请日:2021-07-16

    Abstract: 本发明涉及一种基于图神经网络的非正常关键账户发现方法、系统、设备及存储介质,包括步骤如下:(1)数据预处理:对非正常金融账户的历史交易记录依次进行数据清洗、关键数据项提取、组织内账户交易关系构建等操作;(2)非正常组织金融交易网络图构建;根据步骤(1)构建的组织内账户交易关系构建非正常组织金融交易网络图;(3)非正常组织关键账户发现;通过训练好的TRGA模型实现非正常组织关键账户发现。本发明能够取得很好的非正常关键账户发现效果。本方法可以为相关工作人员的非正常侦查工作提供辅助研判信息,提高工作效率,节省时间。随着更多非正常标记数据的发现,分类模型会得到进一步的完善,检测识别结果准确率也有增加趋势。

    一种基于无监督学习的领域词发现方法

    公开(公告)号:CN111881678B

    公开(公告)日:2023-11-10

    申请号:CN202010747924.3

    申请日:2020-07-30

    Abstract: 本发明涉及一种基于无监督学习的领域词发现方法,属于计算机文本信息处理技术领域,输入通用语料和领域语料便可提取出来领域词,步骤为先把通用语料和领域语料切分,获得通用候选词库和领域候选词库,两种领域词库的处理方式相同;获取了通用候选词库和领域候选词库,对领域文本进行无监督学习,将两个词库中的词频转换为对应的概率,对两个词库的未分割句子任意切分,计算每一种切分方式的标准化概率得分,统计得分靠前的句子切分组合中的词语,收集领域词汇,把领域候选词库中的通用词转移到通用候选词库中,并保存获得领域词汇。无需人工标注语料,提高了含有标点符号的实体名称识别率。

    一种基于高斯混合模型的通信数据异常检测方法

    公开(公告)号:CN115442107A

    公开(公告)日:2022-12-06

    申请号:CN202211054379.5

    申请日:2022-08-31

    Abstract: 本申请提供了一种基于高斯混合模型的通信数据异常检测方法,解决了现有的基于统计方法的异常检测预测效果不理想、计算复杂度高的技术问题。其包括以下步骤:输入数据集:输入网络通信行为数据集,数据集为若干条通信在各个阶段的时间成本集合;确定隐变量:每个阶段的数据均来自高斯混合模型,设定隐变量为链路编号Z,且取值范围为[1,K];构成每个高斯混合模型的高斯分布的数量等于链路条数K;参数求解:通过EM算法,进行迭代求解,对该隐变量确定的高斯混合模型进行参数求解;异常检测:新通信行为出现时,通过计算该通信行为的数据点来自高斯混合模型的概率,来预测是否存在异常攻击。本申请广泛应用于通信数据异常检测技术领域。

Patent Agency Ranking